Новини

Свіжі новини та корисні статті про штучний інтелект і машинне навчання

Цифрова магія з “Alchemist”: трансформація матеріалів на зображеннях

Дослідники з Лабораторія комп’ютерних наук і штучного інтелекту Массачусетського технологічного інституту (CSAIL) та Google Research представили модель “Alchemist”, яка забезпечує безпрецедентну точність у керуванні властивостями матеріалів на зображеннях. Цей інноваційний інструмент вирішує важливу проблему, з якою стикаються користувачі моделей, що генерують текст в зображення: отримання детальних і точних властивостей матеріалів об’єктів.

Alchemist (Алхімік) дозволяє користувачам змінювати чотири ключові атрибути як реальних, так і згенерованих штучним інтелектом зображень:

  1. Шорсткість (Roughness)
  2. Металічність (Metallicity)
  3. Альбедо (Albedo)
  4. Прозорість (Transparency)

У якості вхідних даних Alchemist бере будь-яку фотографію та дозволяє користувачам налаштовувати кожну властивість в межах безперервної шкали від -1 до 1, створюючи новий візуальний образ. Магія цього інструменту полягає в його моделі дифузії шумозаглушення, а саме Stable Diffusion 1.5. Ця модель перетворення тексту в зображення відома своїми фотореалістичними результатами та можливостями редагування. На відміну від попередніх дифузійних систем, які зосереджувалися на змінах вищого рівня (таких як заміна об’єктів або зміна глибини зображення), Alchemist фокусується на атрибутах низького рівня. Його унікальний інтерфейс зі слайдерами перевершує інші методи, дозволяючи точно налаштовувати властивості матеріалу.

Можливості Alchemist обіцяють значні досягнення в різних галузях:

  • Дизайн відеоігор: Alchemist можна використовувати для модифікації моделей відеоігор, адаптації їх до різних середовищ або підвищення їх реалістичності.
  • Візуальні ефекти (VFX): регулюючи властивості матеріалу, Alchemist може розширити можливості ШІ у візуальних ефектах, роблячи сцени більш переконливими та захопливими.
  • Навчальні дані для робототехніки: завдяки доступу до ширшого спектру текстур, роботи можуть краще розуміти та маніпулювати різноманітними предметами в реальних сценаріях. Крім того, можливості Alchemist у класифікації зображень можуть допомогти виявляти, де саме нейронні мережі не здатні розпізнати матеріальні зміни, таким чином підвищуючи точність цих систем.

У порівняльних дослідженнях Alchemist перевершив подібні моделі, точно редагуючи лише вказаний об’єкт. Наприклад, коли потрібно було зробити дельфіна повністю прозорим, не змінюючи при цьому фон океану, Alchemist був єдиною моделлю, яка точно досягла визначених умов. Дослідження показали, що користувачі віддають перевагу Alchemist, і багато хто вважає, що його результати більш фотореалістичні, ніж результати аналогів.

Щоб подолати непрактичність збору реальних даних, дослідники тренували Alchemist на синтетичному наборі даних. Цей датасет передбачав випадкове редагування властивостей 1200 матеріалів, застосованих до 100 унікальних 3D-об’єктів у Blender, популярному інструменті комп’ютерної графіки.

Незважаючи на свої досягнення, Alchemist має певні обмеження, зокрема, в правильному визначенні освітлення, що може призвести до фізично неправдоподібних результатів. Наприклад, за максимальних налаштувань прозорості рука, яка частково знаходиться всередині коробки з-під пластівців, може виглядати як прозорий контейнер без видимих пальців.

Дослідницька група прагне розширити можливості Alchemist. Майбутні задачі будуть зосереджені на вдосконаленні 3D-активів для графіки на рівні сцени та визначенні властивостей матеріалу із зображень, потенційно пов’язуючи візуальні та механічні характеристики об’єктів.

Ознайомитися з можливостями моделі Alchemist можна на нашому Youtube каналі.