Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Искусственный интеллект учится объединять зрение и слух

Представьте, как вы смотрите видео, где кто-то хлопает дверью, а искусственный интеллект (ИИ) мгновенно связывает точный момент этого звука с визуальным изображением закрывающейся двери, при этом его никто никогда не учил, что такое дверь. Именно такое будущее строят исследователи из Массачусетского технологического института (MIT) вместе с международными партнерами, разрабатывая новую технологию машинного обучения, имитирующую способность человека интуитивно сочетать визуальную и звуковую информацию.

Команда представила обновленную модель искусственного интеллекта CAV-MAE Sync, которая способна с высокой точностью выявлять связи между аудио и видео без необходимости в ручной маркировке данных. Потенциальное применение технологии охватывает автоматизированный видеомонтаж, умные системы управления контентом, а также роботов, которые лучше ориентируются в реальной среде.

По словам аспиранта MIT и соавтора исследования Эндрю Рудитченко (Andrew Rouditchenko), человек обычно воспринимает мир одновременно с помощью зрения и слуха, так что команда стремится, чтобы искусственный интеллект мог делать то же самое. Интеграция такого аудиовизуального “понимания” в большие языковые модели может открыть путь к новым, более сложным AI-приложениям.

Предыдущая версия модели, CAV-MAE, уже могла обрабатывать и сопоставлять аудио и видео в видеоклипах. Она обучалась на немаркированных видео, которые превращала в так называемые токены – внутренние представления данных – и автоматически сопоставляла соответствующие аудио- и видеосигналы.

Однако оригинальной модели не хватало точности: она рассматривала длинные аудио- и видеосегменты как единое целое, даже если определенный звук – например, лай собаки или стук дверей – длился лишь короткое время.

CAV-MAE Sync устраняет эту проблему. Она разбивает аудио на меньшие фрагменты и сопоставляет каждый с конкретным видеокадром. Такой детализированный временной анализ позволяет модели точно связывать отдельное изображение с конкретным звуком в тот самый момент, когда он происходит, что существенно повышает точность модели.

Это дает системе более точное представление о времени – важную составляющую в задачах вроде поиска видео по звуку.

CAV-MAE Sync использует стратегию двойного обучения, чтобы сбалансировать две цели:

  • Задача контрастного обучения, которое помогает модели отличать подходящие аудиовизуальные пары от несоответствующих друг другу.
  • Задача реконструкции, где ИИ учится извлекать конкретный контент, например, находить видео по аудиозапросу.

Для поддержки этих целей исследователи ввели специальные “глобальные токены” (“global tokens”) для улучшения контрастного обучения и “реестровые токены” (“register tokens”), которые помогают модели сосредоточиться на мелких деталях для реконструкции. Такое “пространство для маневра” позволяет модели эффективнее выполнять обе задачи.

Результаты говорят сами за себя: CAV-MAE Sync превосходит не только свою предыдущую версию, но и более сложные, ресурсоемкие системы в задачах поиска видео и классификации аудиовизуальных сцен. Модель с высокой точностью определяет как игру на музыкальном инструменте, так и звуки домашних животных.

В будущем команда планирует интегрировать еще более мощные механизмы представления данных, а также добавить поддержку текстовых промптов. Это станет важным шагом к созданию полноценной мультимодальной модели искусственного интеллекта, способной видеть, слышать и читать.

В итоге, такая технология может сыграть ключевую роль в разработке умных помощников, улучшении инструментов доступности или даже в управлении роботами, которые взаимодействуют с людьми и их окружением более естественными способами.

Вы можете узнать больше об исследованиях по аудиовизуальному обучению здесь.