Цифровая магия с "Alchemist": трансформация материалов на изображениях
Исследователи из Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) и Google Research представили модель “Alchemist”, которая обеспечивает беспрецедентную точность в управлении свойствами материалов на изображениях. Этот инновационный инструмент решает немаловажную проблему, с которой сталкиваются пользователи моделей, генерирующих текст в изображение: получение подробных и точных свойств материалов объектов.
Alchemist (Алхимик) позволяет пользователям изменять четыре ключевых атрибута как реальных, так и сгенерированных искусственным интеллектом изображений:
- Шероховатость (Roughness)
- Металличность (Metallicity)
- Альбедо (Albedo)
- Прозрачность (Transparency)
В качестве входных данных Alchemist берет любую фотографию и позволяет пользователям настраивать каждое свойство в пределах непрерывной шкалы от -1 до 1, создавая новый визуальный образ. Магия этого инструмента заключается в его модели диффузии шумоподавления, а именно Stable Diffusion 1.5. Эта модель преобразования текста в изображение известна своими фотореалистичными результатами и возможностями редактирования. В отличие от предыдущих диффузионных систем, которые сосредотачивались на изменениях более высокого уровня (таких как замена объектов или изменение глубины изображения), Alchemist фокусируется на атрибутах низкого уровня. Его уникальный интерфейс со слайдерами превосходит другие способы, позволяя точно настраивать характеристики материала.
Возможности Alchemist обещают значительные достижения в разных отраслях:
- Дизайн видеоигр: Alchemist можно использовать для модификации моделей видеоигр, адаптации их к различным средам или повышению их реалистичности.
- Визуальные эффекты (VFX): регулируя свойства материала, Alchemist может расширить возможности ИИ в визуальных эффектах, делая сцены более убедительными и увлекательными.
- Тренировочные данные для робототехники: благодаря доступу к более широкому спектру текстур, роботы могут лучше понимать и манипулировать разнообразными предметами в реальных сценариях. Кроме того, возможности Alchemist в классификации изображений могут помочь выявлять, где именно нейронные сети не способны распознать материальные изменения, тем самым повышая точность этих систем.
В сравнительных исследованиях Alchemist превзошел подобные модели, точно редактируя только указанный объект. К примеру, когда нужно было сделать дельфина полностью прозрачным, не меняя при этом фон океана, Alchemist был единственной моделью, которая точно достигла заданных условий. Исследования показали, что пользователи предпочитают Alchemist, и многие считают, что его результаты более фотореалистичны, чем результаты аналогов.
Чтобы преодолеть непрактичность сбора реальных данных, исследователи обучали Alchemist на синтетическом наборе данных. Этот датасет предполагал случайное редактирование свойств 1200 материалов, применяемых к 100 уникальным 3D-объектам в Blender, популярном инструменте компьютерной графики.
Несмотря на свои достижения, Alchemist имеет некоторые ограничения, в частности, в правильном определении освещения, что может привести к физически неправдоподобным результатам. Например, при максимальных настройках прозрачности рука, которая частично находится внутри коробки из-под хлопьев, может выглядеть как прозрачный контейнер без видимых пальцев.
Исследовательская группа стремится расширить возможности Alchemist. Будущая работа может быть сосредоточена на усовершенствовании 3D-активов для графики на уровне сцены и определении свойств материала из изображений, потенциально связывая визуальные и механические характеристики объектов.
Ознакомиться с возможностями модели Alchemist можно на нашем YouTube канале.