Погрузитесь в картины Ван Гога и исследуйте целые виртуальные миры, созданные ИИ! На World Labs Hackathon хакеры создали полностью интерактивные среды всего за несколько часов, а Project Genie от Google позволяет любому превращать простые промпты или изображения в увлекательные миры в реальном времени.
Qwen3.5 от Alibaba – это новое поколение мультимодальных моделей с нативной интеграцией зрения и языка и эффективной MoE-архитектурой. Они обеспечивают логическое мышление, длинный контекст и значительно ниже вычислительные затраты, делая передовой ИИ доступным как для локальных устройств, так и для облачных систем.
Новый фреймворк APOLLO разделяет общие биологические сигналы между разными методами измерения и выделяет уникальные для каждого из них. Это позволяет лучше анализировать состояние клеток, прогнозировать неизмеримые характеристики, точнее выявлять биомаркеры заболеваний и ускорять открытия в исследованиях рака, Альцгеймера и др.
Обученная на 1,7 млрд изображений, модель DINOv3 от Meta AI задает новые стандарты в классификации изображений и обнаружении объектов. Благодаря инновациям, таким как Gram anchoring, и практическому влиянию: от мониторинга вырубки лесов до поддержки исследований NASA на Марсе – DINOv3 является настоящим прорывом в сфере компьютерного зрения.
MultiRobot FrameWork позволяет роботам обмениваться информацией в режиме реального времени о своем окружении, положении и задачах, воспроизводя коллективное поведение, присущее колониям насекомых, но с помощью современных датчиков и вычислительных мощностей.
Новый фреймворк GenSeg значительно сокращает потребность в размеченных данных и обеспечивает высокую точность сегментации медицинских снимков всего с 40-50 образцов. Создавая синтетические датасеты с маркировкой, он способствует разработке передовых методов диагностически даже в условиях ограниченного количества данных.
Искусственный синапс с автономным питанием может имитировать цветовосприятие человеком с разрешением 10 нанометров с помощью солнечных элементов, чувствительных к красителям. Эта технология создает энергоэффективные системы ИИ, способные к распознаванию цветов и их логической обработке.
Исследователи из MIT разработали CAV-MAE Sync – AI модель, которая учится точно связывать звуки с соответствующими визуальными эффектами в видео без каких-либо пометок. Такая технология может приблизить нас к более умному ИИ, способного видеть, слышать и понимать мир так же, как человек.
ItpCtrl-AI улучшает диагностику рентгеновских снимков, имитируя взгляд радиологов и создавая интерпретированные тепловые карты, которые повышают прозрачность и доверие к ИИ в медицинской визуализации. Фильтруя несущественные данные и фокусируясь на ключевых зонах, модель обеспечивает более точные и понятные результаты.
Патентное ведомство Индии выдало патент на инновационную систему посадки мини-БПЛА. Эта технология обеспечивает точное приземление в сложных местностях и имеет потенциальное применение как в военной, так и гражданской логистике, включая экстренную помощь и доставку на большой высоте.
Новая система избегания столкновений для беспилотников использует бортовые датчики и камеры для автономного предотвращения аварий в воздухе. Целью этой технологии является содействие безопасной и эффективной работе БПЛА во все более переполненном воздушном пространстве.
Новая система компьютерного зрения значительно уменьшает энергопотребление и обеспечивает пространственное осознание в режиме реального времени. Она улучшает способность ИИ точно воспринимать 3D-пространство и имеет решающее значение для таких технологий, как беспилотные автомобили и дроны.
Проводя эксперименты и совершенствуя их анализ, MAIA может интерпретировать нейронные сети, что повышает понимание работы ИИ моделей. Этот агент может определять активность нейронов, удалять нерелевантные функции и выявлять предубеждения, делая системы ИИ более безопасными и прозрачными.
Вдохновленные насекомыми, ученые создают автономные навигационные стратегии для маленьких, легких роботов. Протестированная на 56-граммовом беспилотнике, система настраивает его возвращение домой после длительных путешествий, используя минимальные вычисления и память.
Благодаря радарным спутникам, предоставляющим высокоточные данные о поверхности Земли, быстрому и доступному программному обеспечению с открытым кодом, цифровые модели рельефа создаются всего в один клик. Это позволяет эффективно отслеживать все изменения рельефа и природные явления.
С увеличением использования БПЛА в последние годы растет и беспокойство по поводу безопасности их применения. В связи с этим была разработана новая система, использующая компьютерное зрение и алгоритмы глубокого обучения для точного и быстрого обнаружения и отслеживания беспилотников.
Разработанный корпорацией Airbus, беспилотник на солнечных батареях Zephyr устанавливает новые мировые рекорды по продолжительности и высоте полета, оставаясь в воздухе в течение 64 дней на высоте до 22,86 км.
Исследователи из Лаборатории компьютерных наук и искусственного интеллекта МИТ и Google Research свершили настоящую магию со своей последней разработкой – диффузионная модель, которая может изменять свойства материала объектов на изображениях.
Компания OpenAI представила GPT-4о – уникальную омнимодель, объединяющую обработку текста, звука и изображений, что позволяет ей работать быстрее и эффективнее, чем когда-либо прежде.
Машинное "разобучение" позволяет генеративному ИИ избирательно забывать проблемные данные без длительного переучивания. Этот метод может обеспечить соблюдение правовых и нравственных норм, сохраняя при этом творческие способности моделей для генерации изображений.
Исследователи из МІТ разработали новый метод, который упрощает генерацию изображений до одного шага. Команда усовершенствовала существующие модели, такие как Stable Diffusion, продемонстрировав способность нового фреймворка быстро создавать высококачественный визуальный контент.
Stability AI представила новый прорыв в моделях ИИ для генерации изображений – Stable Diffusion 3. Ее расширенный диапазон параметров и архитектура диффузионного трансформатора гарантируют создание сложных, высококачественных изображений и точный перевод текста в визуальный контент.
Последнее творение от OpenAI – Sora – создает увлекательные видео, демонстрируя непревзойденную реалистичность визуальных композиций. Благодаря сочетанию обработки речи и генерации видео, модель может интерпретировать текстовые подсказки, приспосабливаться к разным способам ввода данных и имитировать динамическое движение камеры.
QuData представляет компьютеризированную систему диагностики рака молочной железы на основе ИИ. Эта инновационная технология обеспечивает раннее выявление онкопатологий и оперативное вмешательство, знаменуя значительный шаг вперед к доступному, точному и своевременному лечению с лучшими результатами.
Новейший метод оценки движения позволяет извлекать долгосрочные траектории движения для каждого пикселя в кадре, даже в случае быстрых движений и сложных сцен. Узнайте больше о захватывающей технологии и будущем анализа движения в статье об OmniMotion.
Новая методика использует видеоанализ для проведения клинической оценки моторной функции на основе конкретных шаблонах поз, что уменьшает необходимость в частых личных медосмотрах и улучшает уход за пациентами.
Последние исследования показывают, что, несмотря на широкое использование CAPTCHA в качестве защиты от автоматизации, современные боты лучше и быстрее решают задачи CAPTCHA, чем люди.
Новое исследование по совершенствованию технологий компьютерного зрения сочетает науку о больших данных и физику. Такое гибридное компьютерное зрение позволяет ИИ осознанно воспринимать, взаимодействовать и реагировать на внешнюю среду в реальном времени.
Исследователи использовали набор простых программ для генерации изображений, чтобы создать набор данных для обучения моделей компьютерного зрения. Такой подход способствует улучшению производительности моделей классификации изображений, обученных на синтетических данных.
Благодаря достижениям в сфере искусственного интеллекта инженеры из Колорадского Университета в Боулдере работают над новым типом трости для слепых или слабовидящих.
Исследователи разработали новые способы использования ИИ вместе с видеонаблюдением для розничной торговли, чтобы лучше понимать поведение потребителей и адаптировать планирование магазинов для увеличения продаж.
Приложение Look to Speak от Google способно помочь людям с нарушениями моторики и проблемами речи легче общаться. Используя только глаза, программа позволяет выбирать заранее подготовленные фразы и озвучивать их.
Исследователи Массачусетского технологического института разработали метод машинного обучения, который точно улавливает и моделирует основную акустику местности, используя лишь небольшое количество звукозаписей.