14 Марта, 2024

Stable Diffusion 3 – генератор изображений нового поколения

Stability AI, ведущая компания по разработке искусственного интеллекта, объявила о выпуске Stable Diffusion 3 (SD3), последней итерации в линейке моделей синтеза изображений.

Семейство моделей Stable Diffusion, включая версии 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а теперь и 3, постоянно расширяет границы возможностей ИИ в создании изображений. Благодаря SD3 Stability AI планирует предоставить более открытую альтернативу коммерческим моделям, таким как DALL-E 3 от OpenAI, признавая при этом проблемы, связанные с защитой авторского права на тренировочные данные, предвзятостью и потенциальным злоупотреблением.

В отличие от своих предшественников, SD3 может похвастаться рядом моделей размером от 800 миллионов до 8 миллиардов параметров, что позволяет ей работать с различными устройствами: от смартфонов до серверов. Такое разнообразие в размерах моделей гарантирует, что SD3 может удовлетворить различные вычислительные требования, сохраняя при этом способность генерировать сложные и реалистичные изображения.

Генеральный директор Stability AI, Эмад Мостаке (Emad Mostaque), обратил внимание на технические достижения, лежащие в основе модели SD3, заявив: "В ней используется новый тип диффузионного трансформатора (подобный Sora) в сочетании с согласованием потока и другими улучшениями. Это позволяет использовать преимущества совершенствования трансформатора и не только расширять масштабы, но и принимать мультимодальные входные данные".

Техника "согласования потока" обеспечивает плавный переход от случайного шума к структурированным изображениям, тем самым улучшая способность модели генерировать визуально связные изображения. А с помощью архитектуры диффузионного трансформатора, SD3 использует новый подход к синтезу изображения, черпая вдохновение из трансформаторов, известных своим мастерством в обработке шаблонов и последовательностей. Эта инновационная методология не только облегчает эффективное масштабирование, но и обеспечивает более высокое качество изображений.

Одной из главных особенностей модели SD3 является ее способность генерировать текст, что исторически было проблемой для моделей синтеза изображений. Предварительные данные свидетельствуют о том, что SD3 достигает успеха в точном переводе текстовых промтов в соответствующие изображения, что ранее ассоциировалось с запатентованными моделями.

Кроме Stable Diffusion 3, Stability AI активно исследует другие архитектуры синтеза изображений, в частности, недавно анонсированная модель Stable Cascade, использующая трехступенчатый процесс преобразования текста в изображение. С каждой инновацией компания подтверждает свою позицию первопроходца в сфере создания изображений с помощью ИИ, расширяя границы возможного в этой области.

Хотя Stable Diffusion 3 еще не является общедоступной, Stability AI открыла список ожидания для предпросмотра. Кроме того, компания подтвердила свое обязательство сделать SD3 доступной для загрузки и локального развертывания после завершения тестирования, отмечая важность обратной связи от сообщества для улучшения производительности и безопасности модели.

Присоединиться к списку ожидания Stable Diffusion 3 можно по ссылке.

Новости

Stable Diffusion 3 – генератор изображений нового поколения