Завітайте всередину картин Ван Гога та досліджуйте цілі світи, створені ШІ! На World Labs Hackathon хакери збудували повністю інтерактивні середовища всього за кілька годин, а Project Genie від Google дозволяє будь-кому перетворювати прості промпти або зображення на захопливі світи в реальному часі.
Qwen3.5 від Alibaba – це нове покоління мультимодальних ШІ-моделей із нативною інтеграцією зору й мови та ефективною MoE-архітектурою. Вони забезпечують логічне мислення, довгий контекст і значно нижчі обчислювальні витрати, роблячи передовий ШІ доступним як для локальних пристроїв, так і для хмарних систем.
Новий фреймворк APOLLO розділяє загальні біологічні сигнали між різними методами вимірювання та виділяє унікальні для кожного з них. Це дає змогу краще аналізувати стан клітин, прогнозувати невиміряні характеристики, точніше виявляти біомаркери захворювань і прискорювати відкриття у дослідженнях раку, Альцгаймера та інших хвороб.
Натренована на 1,7 млрд зображень, модель DINOv3 від Meta AI встановлює нові стандарти у класифікації зображень та виявленні об’єктів. Завдяки інноваціям, таким як Gram anchoring, і практичному впливу: від моніторингу вирубки лісів до підтримки досліджень NASA на Марсі – DINOv3 знаменує собою справжній прорив у сфері комп’ютерного зору.
MultiRobot FrameWork дозволяє роботам обмінюватися інформацією в режимі реального часу про своє оточення, положення та завдання, відтворюючи колективну поведінку, яка притаманна колоніям комах, але за допомогою сучасних датчиків та обчислювальних потужностей.
Новий фреймворк GenSeg значно скорочує потребу в розмічених експертами даних і забезпечує високу точність сегментації медичних зображень лише з 40-50 зразків. Створюючи реалістичні синтетичні датасети з маркуванням, він сприяє розробці передових методів діагностики навіть в умовах обмеженої кількості даних.
Штучний синапс з автономним живленням може імітувати сприйняття кольору людиною з роздільною здатністю 10 нанометрів за допомогою сонячних елементів, чутливих до барвників. Ця технологія створює енергоефективні системи ШІ, які здатні до розпізнавання кольорів та їх логічної обробки.
Дослідники з MIT розробили CAV-MAE Sync – AI модель, яка навчається точно пов’язувати звуки з відповідними візуальними ефектами у відео без жодних позначок. Така технологія може наблизити нас до розумнішого ШІ, здатного бачити, чути та розуміти світ так само, як людина.
ItpCtrl-AI вдосконалює діагностику рентгенівських знімків, імітуючи погляд радіологів та створюючи інтерпретовані теплові карти, що підвищують прозорість і довіру до ШІ в медичній візуалізації. Відфільтровуючи несуттєві дані та зосереджуючись на ключових зонах, модель забезпечує більш точні та зрозумілі результати.
Патентне відомство Індії видало патент на інноваційну систему посадки міні-БПЛА. Ця технологія забезпечує точне приземлення у складних місцевостях і має потенційне застосування як у військовій, так і в цивільній логістиці, включаючи екстрену допомогу та доставку на великій висоті.
Нова система уникнення зіткнень для безпілотників використовує бортові датчики і камери для автономного запобігання аварій у повітрі. Ця технологія має на меті сприяти безпечній та ефективній роботі БПЛА у все більш переповненому повітряному просторі.
Нова система комп’ютерного зору значно зменшує енергоспоживання і забезпечує просторове усвідомлення в режимі реального часу. Вона покращує здатність ШІ точно сприймати 3D-простір і має вирішальне значення для таких технологій, як безпілотні автомобілі та дрони.
Проводячи експерименти та покращуючи їх аналіз, MAIA може інтерпретувати нейронні мережі, що підвищує розуміння роботи ШІ моделей. Цей агент може визначати активність нейронів, видаляти нерелевантні функції та виявляти упередження, роблячи системи ШІ безпечнішими та більш прозорими.
Натхненні можливостями комах, дослідники створюють автономні навігаційні стратегії для маленьких, легких роботів. Протестована на 56-грамовому безпілотнику, система налаштовує його повернення додому після тривалих подорожей, використовуючи мінімальні обчислення та пам’ять.
Завдяки радарним супутникам, які надають безперервні, високоточні дані про поверхню Землі, та швидкому й доступному програмному забезпеченню з відкритим кодом, цифрові моделі рельєфу створюються усього в один клік. Це дозволяє ефективно відстежувати зміни рельєфу та природні явища.
Зі значним збільшенням використання БПЛА в останні роки зростає і занепокоєння щодо безпеки їх застосування. У зв'язку з цим була розроблена нова система, яка використовує комп'ютерний зір та алгоритми глибокого навчання для точного та швидкого виявлення і відстеження дронів.
Розроблений корпорацією Airbus, безпілотник на сонячних батареях Zephyr встановлює нові світові рекорди з тривалості та висоти польоту, залишаючись у повітрі протягом 64 днів на висоті до 22,86 км.
Дослідники з Лабораторія комп’ютерних наук і штучного інтелекту МІТ та Google Research вчинили справжню магію зі своєю останньою розробкою – дифузійна модель, яка може змінювати властивості матеріалу об’єктів на зображеннях.
Компанія OpenAI презентувала GPT-4о – унікальну омнімодель, яка поєднує обробку тексту, звуку та зображень, що дозволяє їй працювати швидше та ефективніше, ніж будь-коли раніше.
Машинне "відучування" дозволяє генеративному ШІ вибірково забувати проблемні дані без тривалого перенавчання. Цей метод здатний забезпечити дотримання правових та етичних норм, зберігаючи при цьому творчі здібності моделей з генерації зображень.
Дослідники з МІТ розробили новий метод, який спрощує генерацію зображень до одного кроку. Команда вдосконалила існуючі моделі, такі як Stable Diffusion, продемонструвавши здатність нового фреймворку швидко створювати високоякісний візуальний контент.
Stability AI представила новий прорив у моделях ШІ для генерації зображень – Stable Diffusion 3. Її розширений діапазон параметрів та архітектура дифузійного трансформатора гарантують створення складних, високоякісних зображень та точний переклад тексту в візуальний контент.
Останнє творіння від OpenAI – Sora – створює захоплюючі відео, демонструючи неперевершену реалістичність візуальних композицій. Завдяки поєднанню обробки мови та генерації відео, модель може інтерпретувати текстові підказки, пристосовуватися до різних способів введення даних та імітувати динамічний рух камери.
QuData представляє комп'ютеризовану систему діагностики раку молочної залози на основі ШІ. Ця інноваційна технологія забезпечує раннє виявлення онкопатологій та оперативне втручання, знаменуючи значний крок уперед до доступного, точного та своєчасного лікування з кращими результатами.
Новий метод оцінки руху дозволяє отримувати довгострокові траєкторії руху для кожного пікселя в кадрі, навіть у разі швидких рухів та складних сцен. Дізнайтеся більше про захоплюючу технологію та майбутній аналіз руху в статті про OmniMotion.
Нова методика використовує відеоаналіз для проведення клінічної оцінки моторної функції на основі конкретних шаблонів поз, що зменшує необхідність у частих особистих медоглядах та покращує догляд за пацієнтами.
Останні дослідження демонструють, що, незважаючи на широке використання CAPTCHA як захисту від автоматизації, сучасні боти краще і швидше вирішують завдання CAPTCHA ніж люди.
Нове дослідження по вдосконаленню технологій комп’ютерного зору поєднує науки про великі дані та фізику. Таке гібридне комп’ютерне бачення дозволяє ШІ усвідомленно сприймати, взаємодіяти та реагувати на зовнішнє середовище в реальному часі.
Дослідники використали набір простих програм для генерації зображень, щоб створити набір даних та навчити модель комп'ютерного зору. Такий підхід сприяє покращенню продуктивності моделей класифікації зображень, навчених на синтетичних даних.
Завдяки досягненням у сфері штучного інтелекту інженери з Колорадського Університету в Боулдері працюють над новим типом тростини для сліпих або людей із вадами зору.
Дослідники запропонували нові способи використання ШІ разом із відеоспостереженням для роздрібної торгівлі, щоб краще розуміти поведінку споживачів та адаптувати планування магазинів для збільшення продажів.
Додаток Look to Speak від Google здатний допомогти людям з порушеннями моторики та проблемами мовлення легше спілкуватися. Використовуючи лише очі, програма дозволяє вибирати заздалегідь підготовлені фрази і озвучувати їх.
Дослідники з Массачусетського технологічного інституту розробили техніку машинного навчання, яка точно фіксує та моделює основну акустику місцевості лише з невеликої кількості звукових записів.