Секретное оружие против наибольшей слабости ИИ
Компания Mantis Biotech внедряет новый подход к решению одной из наиболее острых проблем в сфере искусственного интеллекта – нехватки качественных данных в сложных реальных условиях. Сочетая большие языковые модели с физически ориентированным моделированием, компания создает “цифровых двойников” людей – виртуальные прогностические модели, которые воспроизводят их анатомию, физиологию и поведение.
Хотя современные AI-системы достигли значительного прогресса в таких областях, как геномика, медицинская диагностика и разработка лекарств, их эффективность в значительной степени зависит от доступа к большим, хорошо размеченным наборам данных. Во многих критически важных сферах, включая исследования редких заболеваний, специализированных медицинских состояний и новые научные направления, такие данные лимитированы, фрагментированы или недоступны из-за ограничений, связанных с конфиденциальностью и нормативно-правовыми требованиями.
Платформа Mantis Biotech решает эту проблему, переосмысливая генерацию данных как задачу моделирования. Вместо того, чтобы полагаться исключительно на собранные датасеты, система использует известные законы физики для расширения небольших объемов наблюдений в большие, структурированные и причинно согласованные обучающие данные. Отдельное наблюдаемое состояние рассматривается как начальное условие, которое затем эволюционирует через физические модели, генерируя широкий спектр вероятных сценариев.
Система функционирует как многоэтапный конвейер, объединяющий автоматизированный сбор данных, ИИ обработку мультимодальных входных данных, оркестрацию на основе LLM, физическое моделирование с учетом специфики отрасли и высокоточный рендеринг. В результате создаются синтетические данные, которые не только выглядят реалистично, но и основаны на фундаментальной механике предметной области, что обеспечивает более надежное обучение моделей.
Этот подход принципиально отличается от традиционных методов аугментации данных, которые обычно полагаются на поверхностные преобразования, такие как вращение, обрезка или изменение цвета. Он также отличается от генеративных моделей, таких как GAN или диффузионные системы, которые могут создавать реалистичные результаты, но не гарантируют физическую согласованность. В отличие от них, Mantis генерирует совершенно новые состояния, отражающие динамику реального мира, а их метки получены непосредственно из процесса симуляции.
На практике масштабирование и внедрение таких синтетических данных часто требует дополнительной инфраструктуры. Сервис QuData может оказать дополнительную поддержку в создании синтетических данных, обеспечивая эффективные и масштабируемые пайплайны для создания высококачественных искусственных наборов данных на основе моделируемых сред или статистических моделей. Команда QuData специализируется на проектировании датасетов, последовательной аннотации и маркировке, проверке качества, снижении предвзятости и интеграции синтетических данных с реальными наборами данных.
Mantis Biotech уже применили свою технологию в профессиональном спорте, где цифровые двойники спортсменов используются для моделирования результатов во времени и прогнозирования потенциальных травм. Интегрируя такие данные, как захват движения, тренировочная нагрузка и биометрические сигналы, система обеспечивает подробный долгосрочный анализ физического поведения.
Помимо спорта, потенциальные сферы применения охватывают широкий спектр индустрий, включая здравоохранение, робототехнику, эпидемиологию и научные исследования. Платформа имеет модульную структуру и не зависит от конкретной отрасли, поддерживая различные типы данных, такие как изображения, видео, аудио, текст и структурированные данные. Такая гибкость позволяет ей эффективно работать в условиях, где традиционные подходы к машинному обучению сталкиваются с трудностями из-за ограниченности или неоднородности данных.
Фреймворк Mantis также дополняет существующие методы искусственного интеллекта. Вместо изменения архитектуры моделей или целей обучения он сосредоточен на улучшении качества и объема самих данных. Полученные наборы данных можно использовать со стандартными методами контролируемого обучения (обучение с учителем) или сочетать с другими подходами, включая модели, основанные на физике, и системы обучения с малым количеством примеров (few-shot learning).
Будущие планы компании предусматривают более широкую валидацию в различных областях, таких как пространственно-временное прогнозирование и оценка поз, а также расширение системы на дополнительные классы физических симуляций.