Секретна зброя проти найбільшої слабкості ШІ
Компанія Mantis Biotech впроваджує новий підхід до вирішення однієї з найгостріших проблем у сфері штучного інтелекту – нестачі якісних даних у складних реальних середовищах. Поєднуючи великі мовні моделі з фізично-орієнтованим моделюванням, компанія створює “цифрових двійників” людей – віртуальні прогнозні моделі, які відтворюють їхню анатомію, фізіологію та поведінку.
Хоча сучасні AI-системи досягли значного прогресу в таких галузях, як геноміка, медична діагностика та розробка ліків, їхня ефективність значною мірою залежить від доступу до великих, добре розмічених наборів даних. У багатьох критично важливих сферах, включно з дослідженнями рідкісних захворювань, спеціалізованих медичних станів та новими науковими напрямами, такі дані лімітовані, фрагментовані або недоступні через обмеження, які пов’язані з конфіденційністю та нормативно-правовими вимогами.
Платформа Mantis Biotech вирішує цю проблему, переосмислюючи генерацію даних як задачу моделювання. Замість того, щоб покладатися виключно на зібрані датасети, система використовує відомі фізичні закони для розширення невеликих обсягів спостережень у великі, структуровані та причинно узгоджені навчальні дані. Окремий спостережуваний стан розглядається як початкова умова, яка потім еволюціонує через фізичні моделі, генеруючи широкий спектр ймовірних сценаріїв.
Система працює через багаторівневий конвеєр, який об’єднує автоматизований збір даних, керовану ШІ обробку мультимодальних вхідних даних, оркестрацію на основі LLM, фізичне моделювання з урахуванням специфіки галузі та високоточний рендеринг. У результаті створюються синтетичні дані, які не лише виглядають реалістично, але й ґрунтуються на фундаментальних механіках предметної області, що забезпечує більш надійне навчання моделей.
Цей підхід принципово відрізняється від традиційних методів аугментації даних, які зазвичай покладаються на поверхневі перетворення, такі як обертання, обрізання або зміна кольору. Він також відрізняється від генеративних моделей, таких як GAN або дифузійні системи, які можуть створювати реалістичні результати, але не гарантують фізичну узгодженість. На відміну від них, Mantis генерує абсолютно нові стани, які відображають динаміку реального світу, а їхні мітки отримані безпосередньо з процесу симуляції.
На практиці масштабування та впровадження таких синтетичних даних часто вимагає додаткової інфраструктури. Сервіс QuData може надати додаткову підтримку у створенні синтетичних даних, забезпечуючи ефективні та масштабовані пайплайни для формування високоякісних штучних наборів даних на основі модельованих середовищ або статистичних моделей. Команда QuData спеціалізується на проєктуванні датасетів, послідовному анотуванні та маркуванні, перевірці якості, зменшенні упередженості та інтеграції синтетичних даних із реальними наборами даних.
Mantis Biotech вже застосували свою технологію у професійному спорті, де цифрові двійники спортсменів використовуються для моделювання результатів у часі та прогнозування потенційних травм. Інтегруючи такі дані, як захоплення руху, тренувальне навантаження та біометричні сигнали, система забезпечує детальний довготривалий аналіз фізичної поведінки.
Окрім спорту, потенційні сфери застосування охоплюють широкий спектр галузей, зокрема охорону здоров’я, робототехніку, епідеміологію та наукові дослідження. Платформа має модульну структуру та не залежить від конкретної галузі, підтримуючи різноманітні типи даних, такі як зображення, відео, аудіо, текст та структуровані дані. Така гнучкість дозволяє їй ефективно працювати в середовищах, де традиційні підходи до машинного навчання стикаються з труднощами через обмеженість або неоднорідність даних.
Фреймворк Mantis також доповнює існуючі методи штучного інтелекту. Замість зміни архітектури моделей або цілей навчання, він зосереджується на покращенні якості та обсягу самих даних. Отримані набори даних можна використовувати зі стандартними методами керованого навчання (навчання з учителем) або поєднувати з іншими підходами, включаючи моделі, які базуються на фізиці, та системи навчання з малою кількістю прикладів (few-shot learning).
Майбутні плани компанії передбачають ширшу валідацію в різних галузях, зокрема для просторово-часового прогнозування та оцінки поз, а також розширення системи на додаткові класи фізичних симуляцій.