
Штучний інтелект вчиться поєднувати зір і слух
Уявіть, як ви дивитеся відео, де хтось грюкає дверима, а штучний інтелект (ШІ) миттєво пов'язує точний момент цього звуку з візуальним зображенням дверей, що зачиняються, при цьому його ніхто ніколи не навчав, що таке двері. Саме таке майбутнє будують дослідники з Массачусетського технологічного інституту (MIT) разом із міжнародними партнерами, розробляючи нову технологію машинного навчання, що імітує здатність людини інтуїтивно поєднувати візуальну та звукову інформацію.
Команда представила оновлену модель штучного інтелекту CAV-MAE Sync, яка здатна з високою точністю виявляти зв’язки між аудіо та відео без потреби в ручному маркуванні даних. Потенційне застосування технології охоплює автоматизований відеомонтаж, розумні системи управління контентом, а також роботів, які краще орієнтуються у реальному середовищі.
За словами аспіранта MIT та співавтора дослідження Ендрю Рудітченко (Andrew Rouditchenko), людина зазвичай сприймає світ одночасно за допомогою зору та слуху, тому команда прагне, аби штучний інтелект міг робити те саме. Інтеграція такого аудіовізуального “розуміння” у великі мовні моделі може відкрити шлях до нових, складніших AI-застосунків.
Попередня версія моделі, CAV-MAE, уже могла обробляти та зіставляти аудіо і відео у відеокліпах. Вона навчалася на немаркованих відео, які перетворювала на так звані токени – внутрішні представлення даних – і автоматично зіставляла відповідні аудіо- та відеосигнали.
Однак оригінальній моделі бракувало точності: вона розглядала довгі аудіо- та відеосегменти як єдине ціле, навіть якщо певний звук – як-от гавкіт собаки чи грюкіт дверей – тривав лише короткий час.
CAV-MAE Sync усуває цю проблему. Вона розбиває аудіо на менші фрагменти й зіставляє кожен із конкретним відеокадром. Такий деталізований часовий аналіз дозволяє моделі точно пов’язувати окреме зображення із конкретним звуком у той самий момент, коли він відбувається, що суттєво підвищує точність моделі.
Це дає системі більш точне уявлення про час – важливу складову у завданнях на кшталт пошуку відео за звуком.
CAV-MAE Sync використовує стратегію подвійного навчання, щоб збалансувати дві цілі:
- Завдання контрастного навчання, яке допомагає моделі розрізняти відповідні аудіовізуальні пари від таких, що не відповідають одне одному.
- Завдання реконструкції, де ШІ вчиться витягувати конкретний контент, наприклад, знаходити відео за аудіозапитом.
Для підтримки цих цілей дослідники запровадили спеціальні “глобальні токени” (“global tokens”) для покращення контрастного навчання та “реєстрові токени” (“register tokens”), які допомагають моделі зосередитися на дрібних деталях для реконструкції. Такий “простір для маневру” дозволяє моделі ефективніше виконувати обидва завдання.
Результати говорять самі за себе: CAV-MAE Sync перевершує не лише свою попередню версію, а й складніші, більш ресурсоємні системи в завданнях пошуку відео та класифікації аудіовізуальних сцен. Модель з високою точністю ідентифікує як гру на музичному інструменті, так і звуки домашніх тварин.
У майбутньому команда планує інтегрувати ще потужніші механізми представлення даних, а також додати підтримку текстових промптів. Це стане важливим кроком до створення повноцінної мультимодальної моделі штучного інтелекту, здатної бачити, чути й читати.
Зрештою, така технологія може зіграти ключову роль у розробці розумних помічників, покращенні інструментів доступності або навіть у керуванні роботами, які взаємодіють з людьми та їхнім оточенням більш природними способами.
Ви можете дізнатися більше про дослідження з аудіовізуального навчання тут.