14 Березня, 2024

Stable Diffusion 3 – генератор зображень нового покоління

Stability AI, провідна компанія з розробки штучного інтелекту, оголосила про випуск Stable Diffusion 3 (SD3), останньої ітерації в лінійці моделей синтезу зображень.

Сімейство моделей Stable Diffusion, включаючи версії 1.4, 1.5, 2.0, 2.1, XL, XL Turbo, а тепер і 3, постійно розширює межі можливостей ШІ у створенні зображень. Завдяки SD3 Stability AI має на меті запропонувати більш відкриту альтернативу комерційним моделям, таким як DALL-E 3 від OpenAI, визнаючи при цьому проблеми, пов’язані з захистом авторського права на навчальні дані, упередженістю та потенційним зловживанням.

На відміну від своїх попередників, SD3 може похвалитися низкою моделей розміром від 800 мільйонів до 8 мільярдів параметрів, що дозволяє їй працювати з різноманітними пристроями: від смартфонів до серверів. Така різноманітність у розмірах моделей гарантує, що SD3 може задовольнити різні обчислювальні вимоги, зберігаючи при цьому здатність генерувати складні та реалістичні зображення.

Генеральний директор Stability AI, Емад Мостаке (Emad Mostaque), звернув увагу на технічні досягнення, що лежать в основі моделі SD3, заявивши: "У ній використовується новий тип дифузійного трансформатора (подібний до Sora) у поєднанні з узгодженням потоку та іншими покращеннями. Це дає змогу використовувати переваги вдосконалення трансформатора і не лише розширювати масштаби, але й приймати мультимодальні вхідні дані".

Техніка "узгодження потоку" забезпечує плавний перехід від випадкового шуму до структурованих зображень, тим самим покращуючи здатність моделі генерувати візуально зв'язні вихідні зображення. А за допомогою архітектури дифузійного трансформатора SD3 використовує новий підхід до синтезу зображення, черпаючи натхнення з трансформаторів, відомих своєю майстерністю в обробці шаблонів і послідовностей. Ця інноваційна методологія не лише полегшує ефективне масштабування, але й забезпечує вищу якість зображень.

Однією з головних особливостей моделі SD3 є її здатність генерувати текст, що історично було проблемой для моделей синтезу зображень. Попередні дані свідчать про те, що SD3 досягає успіху в точному перекладі текстових промтів у відповідні зображення, що раніше асоціювалося з запатентованими моделями.

Окрім Stable Diffusion 3, Stability AI активно досліджує інші архітектури для синтезу зображень, зокрема нещодавно анонсована модель Stable Cascade, яка використовує триступеневий процес перетворення тексту в зображення. З кожною інновацією компанія підтверджує свою позицію першопрохідця у сфері створення зображень за допомогою ШІ, розширюючи межі можливого в цій галузі.

Хоча Stable Diffusion 3 ще не є загальнодоступною, Stability AI відкрила список очікування для попереднього перегляду. Крім того, компанія підтвердила своє зобов'язання зробити SD3 доступною для завантаження і локального розгортання після завершення тестування, наголошуючи на важливості відгуків від спільноти для покращення продуктивності і безпеки моделі.

Приєднатися до списку очікування Stable Diffusion 3 можна за посиланням.

Новини

Stable Diffusion 3 – генератор зображень нового покоління