Movie Gen – будущее AI видео генерации
Meta, материнская компания Facebook и Instagram, представила новую модель искусственного интеллекта под названием Movie Gen, призванную значительно улучшить процесс генерации видео. Этот инновационный AI видеогенератор способен создавать видео высокого разрешения со звуковым сопровождением, используя только текстовые подсказки. Анонс Movie Gen знаменует новый шаг для Meta AI в сфере генеративного ИИ, что ставит компанию в прямую конкуренцию с другими гигантами отрасли, такими как OpenAI и Google.
В центре модели Movie Gen лежит возможность создавать совершенно новые видеоклипы из простых текстовых промптов, например, «ленивец в розовых очках лежит на пончике в бассейне». Модель предлагает значительный прогресс для генерации видео, открывая новые возможности для профессиональных режиссеров, создателей контента и энтузиастов-любителей. Видео можно создавать в различных форматах и продолжительностью до 16 секунд, что делает их пригодными для широкого круга применений: от постах в соцсетях до коротких фильмов. Эта технология является следующим этапом развития предыдущих достижений Meta в сфере генерации видео, таких как видеогенератор Make-A-Scene и модель синтеза изображений Emu.
Помимо создания новых видео с нуля, Movie Gen предлагает расширенные возможности редактирования. Пользователи могут загружать существующие видео или изображения и изменять их с помощью простых текстовых команд. Например, статическое изображение человека можно превратить в движущееся видео, где этот человек выполняет действия, описанные в текстовом промпте. На этом возможности кастомизации имеющихся видеоматериалов не заканчиваются. Пользователи могут изменять конкретные детали, такие как фон, объекты или даже одежду персонажей. Эти изменения, выполняемые с помощью текстовых подсказок, демонстрируют точность и универсальность функций редактирования Movie Gen.
Однако, что действительно отличает Movie Gen от конкурентов, так это высококачественная генерация звука. Искусственный интеллект может создавать саундтреки, звуковые эффекты и фоновые шумы, синхронизируемые с визуальным контентом видео. Пользователи могут вводить текстовые инструкции для конкретных аудиоэлементов, таких как «шуршание листьев» или «шаги по гравию», и Movie Gen добавит эти звуки к сцене. Модель способна генерировать до 45 секунд звука, что позволяет сопровождать даже короткометражные фильмы или детализированные клипы динамическим звуковым сопровождением. Meta AI также отметила, что модель включает технику аудио расширения, которая обеспечивает непрерывное повторение звукового ряда для более длинных видео.
Презентация Movie Gen происходит во времена, когда другие крупные игроки в сфере искусственного интеллекта также разрабатывают подобные инструменты. Компания OpenAI анонсировала свою модель преобразования текста в видео Sora в начале этого года, однако модель еще не выпущена для широкой общественности. Тем временем компания Runway недавно представила свою последнюю генеративную платформу ИИ – Gen-3 Alpha.
Впрочем, Movie Gen отличается благодаря способности выполнять несколько задач: генерировать новый видеоконтент, редактировать существующие клипы и добавлять персонализированные элементы, сохраняя при этом целостность оригинального видео. По результатам слепого тестирования, Movie Gen превосходит конкурирующие модели как в видео, так и в звуковой генерации.
Несмотря на высокие ожидания, Meta AI заявила, что модель пока не готова к публичному выпуску. По словам компании, технология пока слишком дорогая для эффективной работы, а время генерации дольше, чем ожидалось. Из-за этих технических ограничений Movie Gen еще некоторое время будет оставаться в разработке, без определенной даты, когда модель станет доступной для разработчиков или широкой общественности.
Посмотреть захватывающие примеры видео, которые сгенерированы с помощью модели Gen Movie, можно на Youtube канале QuData.