
Конец эры графических процессоров? Оптический ИИ берет верх
Исследователи Калифорнийского университета в Лос-Анджелесе (UCLA) представили оптические генеративные модели – новый подход к генерации изображений с помощью искусственного интеллекта, который использует физику света вместо традиционных электронных вычислений. Опубликованное исследование освещает решение, которое обеспечивает быструю и энергоэффективную альтернативу классическим диффузионным моделям, сохраняя при этом сопоставимое качество изображения.
Современный генеративный ИИ, включая модели диффузии и большие языковые модели, способен генерировать реалистичные изображения, видео и тексты, подобные тем, что были созданы человеком. Однако такие системы требуют огромных вычислительных ресурсов, что увеличивает энергопотребление, выбросы углерода и сложность аппаратного обеспечения. Команда UCLA под руководством профессора Айдогана Озкана (Aydogan Ozcan) выбрала совершенно иной путь: они генерируют изображения оптически, используя именно свет для выполнения вычислений.
Система сочетает в себе мелкий электронный энкодер с перенастраиваемым дифракционным оптическим декодером в свободном пространстве. Процесс начинается со случайного шума, который цифровой кодер быстро преобразует в сложные двумерные фазовые узоры – “optical generative seeds” (“сиды” – изначальные значения). Затем эти шаблоны проецируются на пространственный модулятор света (SLM) и освещаются лазерным лучом. Когда модулированный свет проходит через статический, предварительно оптимизированный дифракционный декодер, он мгновенно самоорганизуется, создавая новое изображение, которое статистически соответствует желаемому распределению данных. Важно, что в отличие от цифровых диффузионных моделей, которые могут требовать сотен или тысяч итераций для очистки шума, оптический процесс создает высококачественное изображение за один “снимок”.
Исследователи проверили систему на различных наборах данных. Оптические модели успешно генерировали новые изображения рукописных цифр, бабочек, человеческих лиц и даже картин в стиле Ван Гога. Результаты были статистически сопоставимы с теми, которые были получены с помощью самых современных цифровых диффузионных моделей, продемонстрировав высокую точность и творческую вариативность. Генерация цветных изображений и картин в стиле Ван Гога с высоким разрешением еще больше подчеркивают универсальность этого подхода.
Команда UCLA разработала две взаимодополняющие структуры:
- Snapshot optical generative models – оптические генеративные модели, которые создают изображения за один шаг освещения, генерируя новые результаты, которые статистически соответствуют распределению целевых данных (бабочки, лица людей, картины в стиле Ван Гога).
- Iterative optical generative models – итеративные модели, которые рекурсивно уточняют исходные изображения, имитируя процессы диффузии, что улучшает качество и разнообразие изображений, избегая при этом коллапса режима.
Ключевые инновации включают:
- Фазово-кодированные оптические сиды – компактное представление латентных признаков для масштабируемой оптической генерации.
- Перенастраиваемые дифракционные декодеры – статические оптимизированные поверхности, позволяющие синтезировать различные распределения данных из предварительно вычисленных сидов.
- Многоцветность и высокое разрешение – последовательное освещение волнами различной длины обеспечивает генерацию RGB-изображений и позволяет создавать высококачественные художественные результаты.
- Энергоэффективность – оптическая генерация требует на порядок меньше энергии, чем диффузионные модели на базе GPU, особенно для изображений с высоким разрешением, выполняя вычисления в аналоговой оптической области.
Эта гибкость позволяет одной оптической системе выполнять несколько генеративных задач, просто обновляя закодированные сиды и предварительно обученный декодер, без изменения аппаратного обеспечения.
Помимо скорости и эффективности, оптические генеративные модели обеспечивают встроенную конфиденциальность и безопасность. Освещая один закодированный фазовый шаблон волнами разной длины, только соответствующий дифракционный декодер может воспроизвести нужное изображение. Такой механизм “ключ-замок” позволяет безопасно доставлять контент, например, для защиты от подделок, персонализированных медиа и конфиденциальной визуальной коммуникации.