Новини

Свіжі новини та корисні статті про штучний інтелект і машинне навчання

Найбільша AI-модель з відкритим кодом для генерації відео

HunyuanVideo – це модель штучного інтелекту для генерації відео, розроблена компанією Tencent. Вона дозволяє створювати високоякісні кінематографічні відео з реалістичною графікою, плавними переходами між сценами та стабільною динамікою руху, які точно відповідають текстовим описам. Особливістю Hunyuan AI Video є її здатність генерувати не лише реалістичний відеоконтент, але й синхронізоване аудіо, що робить модель комплексним рішенням для створення мультимедійних матеріалів із ефектом присутності. Завдяки 13 мільярдам параметрів, HunyuanVideo це найбільша і найдосконаліша на сьогоднішній день модель для генерації відео з тексту з відкритим вихідним кодом, яка перевершує всі існуючі аналоги за масштабом, якістю та універсальністю.

Відеогенератор HunyuanVideo розроблено для вирішення головних проблем у створенні контенту типу “текст у відео” (T2V). На відміну від багатьох існуючих моделей штучного інтелекту, які мають труднощі з підтримкою узгодженості сюжету та зв'язності сцени, HunyuanVideo демонструє виняткову продуктивність у цій сфері:

  • Висока якість візуального контенту: Модель проходить тонку настройку для створення деталізованого контенту, що робить згенероване відео чітким, яскравим і візуально привабливим.
  • Динаміка руху: На відміну від статичних або малорухомих результатів деяких моделей ШІ, HunyuanVideo створює плавні та природні рухи, що робить відео більш правдоподібним.
  • Узагальнення концепції: Модель використовує реалістичні ефекти для демонстрації віртуальних сцен, дотримуючись законів фізики, щоб зменшити відчуття відірваності від реальності для аудиторії.
  • Обґрунтування дій: Використовуючи великі мовні моделі (LLMs), система може генерувати послідовності рухів на основі текстового опису, покращуючи реалістичність взаємодії людини та об'єктів.
  • Генерація тексту та опису сцени: Рідкісна функція серед відеомоделей зі штучним інтелектом дозволяє HunyuanVideo створювати інтегрований у сцену текст, що поступово з'являється, розширюючи можливості використання моделі для креативного сторітелінгу.

Зазначений АІ-відеогенератор підтримує різні роздільні здатності, зокрема 720p (720×1280 px), 540p (544×960 px), а також пропонує співвідношення сторін 9:16, 16:9, 4:3, 3:4, 1:1 для різних платформ і потреб.

Щоб забезпечити найвищу якість відео, HunyuanVideo використовує багатоступеневий підхід до фільтрації даних. Модель навчається на ретельно відібраних наборах даних, відфільтровуючи неякісний контент на основі естетичної привабливості, чіткості руху та дотримання професійних стандартів. Інструменти на основі штучного інтелекту, такі як PySceneDetect, OpenCV та YOLOX, допомагають у виборі високоякісних навчальних даних, гарантуючи, що лише найкращі відеокліпи беруть участь у процесі навчання моделі.

Однією з найцікавіших можливостей HunyuanVideo є модуль перетворення відео в аудіо (V2A), який автономно генерує реалістичний аудіосупровід і фонову музику. Традиційний дизайн звуку Foley вимагає кваліфікованих фахівців і значних витрат часу. Модуль V2A від HunyuanVideo спрощує цей процес, забезпечуючи такі процеси:

  • Аналіз відеоконтенту для створення відповідних звукових ефектів.
  • Фільтрування та класифікація аудіо для забезпечення чистоти та узгодженості звуку.
  • АІ-обробка для узгодження згенерованого звуку з візуальним контентом, забезпечуючи безперебійне відтворення мультимедійного контенту.

Модель V2A використовує варіаційний автокодер (VAE), навчений на mel-спектрограмах, для перетворення згенерованого аудіо у високоякісний звук. Вона також інтегрує кодери CLIP і T5 для виділення візуальних і текстових ознак, забезпечуючи глибоке узгодження між відео, текстом і аудіо компонентами.

HunyuanVideo встановлює новий стандарт для генеративних моделей, наближаючи нас до майбутнього, в якому сторітелінг на основі штучного інтелекту буде більш захопливим і доступним, ніж будь-коли раніше. Здатність створювати високоякісні візуальні ефекти, реалістичні рухи, структуровані титри та синхронізований звук робить модель потужним інструментом для творців контенту, кінематографістів та медіа-професіоналів.

Детальніше про можливості HunyuanVideo та технічні характеристики моделі читайте у статті.