Квітень 7, 2022

Новонабуті творчі здібності ШІ: що потрібно знати про фундаментальні моделі і як вони допомагають роботам жартувати

Ви коли-небудь бачили фото чайника у формі авокадо або читали цікаву статтю, ідеї якої дивним чином уникають заданої теми? Якщо так, то, можливо, ви зіткнулися з останніми тенденціями в галузі штучного інтелекту (ШІ).

Системи машинного навчання DALL-E, GPT та PaLM зарекомендували себе як ефективні інноваційні інструменти для виконання творчих завдань.

Такі системи відомі як «фундаментальні моделі» і це не просто реклама чи розважальні трюки для вечірок. То як же працює цей новий підхід до ШІ? Чи стане це кінцем прояву індивідуальної креативності та початком жаху поширення підробок?

1. Що таке фундаментальна модель

Фундаментальні моделі забезпечують формування єдиної бази даних та наповнюють її великим масивом інформації, а потім адаптують систему для виконання нових завдань. Як правило, попередні моделі кожну задачу починали з нуля. Для порівняння фотографій (наприклад, знімка домашнього кота) з підписом («Містер Пушистик, смугастий котик відпочиває на сонечку») потрібно сканувати сотні мільйонів прикладів.

Після навчання, нинішня модель здатна легко розпізнати, як виглядають кішки (або що завгодно) на картинках або фотографіях. Вказані моделі також можна використовувати для виконання інших цікавих завдань ШІ. Наприклад, створювати нові зображення лише на основі підпису («Покажіть мені коалу, що кидає м'яч») або редагувати зображення за допомогою письмових інструкцій («Зробити так, ніби ця мавпа сплачує податки»).

2. Як це працює

Базові моделі функціонують за допомогою «глибоких нейронних мереж», які частково ґрунтуються на принципах роботи людського мозку. Вони включають складну математику і велику обчислювальну потужність, що у результаті зводиться до процесу зіставлення зі зразком.

Наприклад, «глибока нейронна мережа» може пов'язати слово «кішка» із шаблонами пікселів, які часто з'являються на зображеннях з кішками, наприклад, з м'якими, нечіткими, волохатими плямами текстури. Чим більше прикладів бачить модель (що більше підходящих результатів їй продемонстровано) і що складніше сама модель (що більше в неї «шарів» чи «глибини»), то складнішими можуть бути ці шаблони і кореляція.

У певному сенсі фундаментальні моделі — це просто розширена модель «глибокого навчання», яка переважала в дослідженнях ШІ в останнє десятиліття. Тим не менш, у них проявляється незапрограмована або «непередбачувана» поведінка, яка може бути не стільки несподіваною, скільки незвичною.

Наприклад, мовна система Google PaLM, мабуть, здатна пояснити складні метафори та жарти. Це виходить за межі простої імітації різних типів інформації, для обробки яких вона спочатку була розроблена.

3.Доступ поки що обмежений

Масштаби таких систем штучного інтелекту приголомшують. PaLM має 540 мільярдів параметрів, а це означає, що навіть якщо кожен на планеті запам'ятає 50 чисел, ми все одно не вистачить пам'яті для відтворення моделі.

Представлені моделі настільки величезні, що їхнє навчання потребує значних обчислювальних та інших ресурсів. Наприклад, за приблизною оцінкою вартість навчання мовної моделі OpenAI GPT-3 становить близько 5 мільйонів доларів США.

В результаті тільки великі технологічні компанії, такі як OpenAI, Google і Baidu, можуть дозволити собі створювати фундаментальні моделі в даний час. Ці компанії обмежують доступ користувача до систем, що є економічно доцільно. Обмеження на використання дещо втішає в тому сенсі, що найближчим часом ці системи не будуть використовуватися в мерзенних цілях (наприклад, для створення фейкових новин або наклепницьких матеріалів). Але це також означає, що незалежні дослідники не можуть вивчити роботу таких моделей та розмістити отримані результати у відкритий доступ. Тож поки що ми ще не знаємо всіх наслідків їх використання.

4. Вклад моделей у «креативні» галузі

Найближчим часом буде вироблено більше базових моделей. Прості моделі вже випускаються у версіях з відкритим вихідним кодом. Технологічні компанії починають експериментувати з ліцензуванням та комерціалізацією таких послуг, тоді як дослідники ШІ старанно працюють, щоб зробити технологію більш ефективною та доступною.

Дивовижна креативність, продемонстрована PaLM і DALL-E 2, сигналізує нам, що ця технологія може торкнутися творчих професій набагато раніше, ніж очікувалося.

Як кажуть, насамперед роботи візьмуть на себе завдання «синіх комірців». Професії, які потребували творчості та освіти, відомі як «білі комірці», мали бути відносно захищеними від автоматизації.

Але варто відзначити, що моделі ШІ з «глибоким навчанням» вже досягають успіху в таких завданнях, як аналіз рентгенівських знімків і визначення дегенерації жовтої плями сітківки ока. Фундаментальні моделі незабаром можуть запропонувати дешеві та «досить хороші» креативні підходи в таких галузях, як реклама, копірайтинг, ілюстрація чи графічний дизайн.

Майбутнє творчих професій може бути дещо іншим, ніж ми припускали.

5. Значення для законодавства, ЗМІ та новин

Оскільки ми не зможемо сказати, що творчий контент є результатом людської діяльності, фундаментальні моделі зрештою впливатимуть на законодавство у таких галузях, як інтелектуальна власність та доказова база.

Нам також доведеться мати справу з дезінформацією та фейками, які створюються такими додатками. Ми вже стикаємося з безліччю проблем через дезінформацію, як видно в російському вторгненні, що розгортається, в Україну і проблемі фейкових зображень і відео, що зароджується. Однак фундаментальні моделі здатні значно посилити ці проблеми.

Настав час планувати!

Як дослідники, які вивчають вплив ШІ на суспільство, ми вважаємо, що базові моделі призведуть до серйозних перетворень. Вони знаходяться під жорстким контролем (поки що), тому у нас ще може бути трохи часу для вивчення їхніх наслідків, перш ніж вони стануть великою проблемою. Джин ще не зовсім випущений із пляшки, але фундаментальні моделі — це велика пляшка, а всередині сидить дуже розумний джин.