Кінець ери графічних процесорів? Оптичний ШІ бере верх

Генерація зображень за допомогою світла! Відкрийте для себе технологію оптичних генеративних моделей

Кінець ери графічних процесорів? Оптичний ШІ бере верх

Дослідники Каліфорнійського університету в Лос-Анджелесі (UCLA) представили оптичні генеративні моделі – новий підхід до генерації зображень за допомогою штучного інтелекту, який використовує фізику світла замість традиційних електронних обчислень. Опубліковане дослідження висвітлює рішення, яке забезпечує швидку та енергоефективну альтернативу класичним дифузійним моделям, зберігаючи при цьому порівнянну якість зображення.

Сучасний генеративний ШІ, включно з дифузійними моделями та великими мовними моделями, здатний генерувати реалістичні зображення, відео та тексти, подібні до тих, що були створені людиною. Проте такі системи потребують величезних обчислювальних ресурсів, що збільшує енергоспоживання, викиди вуглецю та складність апаратного забезпечення. Команда UCLA під керівництвом професора Айдогана Озкана (Aydogan Ozcan) обрала радикально інший шлях: вони генерують зображення оптично, використовуючи саме світло для виконання обчислень.

Система поєднує мілкий електронний енкодер з переналаштовуваним дифракційним оптичним декодером у вільному просторі. Процес починається з випадкового шуму, який цифровий кодер швидко перетворює на складні двовимірні фазові візерунки – “optical generative seeds” ( “сіди” – початкові значення). Потім ці шаблони проєктуються на просторовий модулятор світла (SLM) і освітлюються лазерним променем. Коли модульоване світло проходить через статичний, попередньо оптимізований дифракційний декодер, воно миттєво самоорганізується, створюючи нове зображення, яке статистично відповідає бажаному розподілу даних. Важливо, що на відміну від цифрових дифузійних моделей, які можуть вимагати сотень або тисяч ітерацій для очищення шуму, оптичний процес створює високоякісне зображення за один “знімок”.

Дослідники перевірили систему на різних наборах даних. Оптичні моделі успішно генерували нові зображення рукописних цифр, метеликів, людських облич та навіть картин у стилі Ван Гога. Результати були статистично порівнянні з тими, що були отримані за допомогою найсучасніших цифрових дифузійних моделей, продемонструвавши високу точність і творчу варіативність. Генерація кольорових зображень та картин у стилі Ван Гога з високою роздільною здатністю ще більше підкреслюють універсальність цього підходу.

Команда UCLA розробила дві взаємодоповнюючі структури:

  1. Snapshot optical generative models – оптичні генеративні моделі, які створюють зображення за один крок освітлення, генеруючи нові результати, які статистично відповідають розподілу цільових даних (метелики, обличчя людей, картини в стилі Ван Гога).
  2. Iterative optical generative models – ітеративні моделі, які рекурсивно уточнюють вихідні зображення, імітуючи процеси дифузії, що покращує якість і різноманітність зображень, уникаючи при цьому колапсу режиму.

Ключові інновації включають:

  • Фазово-закодовані оптичні сіди – компактне представлення латентних ознак для масштабованої оптичної генерації.
  • Переналаштовувані дифракційні декодери – статичні оптимізовані поверхні, що дозволяють синтезувати різні розподіли даних із попередньо обчислених сідів.
  • Багатоколірність і високу роздільну здатність – послідовне освітлення хвилями різних довжин забезпечує генерацію RGB-зображень та дозволяє створювати високоякісні художні результати.
  • Енергоефективність – оптична генерація потребує на порядок меньше енергії, ніж дифузійні моделі на базі GPU, особливо для зображень з високою роздільною здатністю, виконуючи обчислення в аналоговій оптичній області.

Ця гнучкість дозволяє одній оптичній системі виконувати кілька генеративних завдань, просто оновлюючи закодовані сіди та попередньо навчений декодер, без зміни апаратного забезпечення.

Крім швидкості та ефективності, оптичні генеративні моделі забезпечують вбудовану приватність і безпеку. Освітлюючи один закодований фазовий шаблон хвилями різної довжини, лише відповідний дифракційний декодер може відтворити потрібне зображення. Такий механізм “ключ-замок” дозволяє безпечно доставляти контент, наприклад для захисту від підробок, персоналізованих медіа та конфіденційної візуальної комунікації.