Новообретенные творческие способности ИИ: что нужно знать о фундаментальных моделях и как они помогают роботам шутить

Новообретенные творческие способности ИИ: что нужно знать о фундаментальных моделях и как они помогают роботам шутить

Вы когда-нибудь видели фото чайника в форме авокадо или читали интересную статью, идеи которой странным образом уходят от заданной темы? Если да, то, возможно, вы столкнулись с последними тенденциями в области искусственного интеллекта (ИИ).

Системы машинного обучения DALL-E, GPT и PaLM зарекомендовали себя как эффективные инновационные инструменты для выполнения творческих задач.

Такие системы известны как «фундаментальные модели» и это не просто реклама или развлекательные трюки для вечеринок. Так как же работает этот новый подход к ИИ? Станет ли это концом проявления индивидуальной креативности и началом ужаса распространения подделок?


1. Что такое фундаментальная модель

Фундаментальные модели обеспечивают формирование единой базы данных и наполняют ее большим массивом информации, а затем адаптируют систему для выполнения новых заданий. Как правило, предыдущие модели каждую возникающую задачу начинали с нуля. Для сравнения фотографий (например, снимка домашнего кота) с подписью («Мистер Пушистик, полосатый котик отдыхает на солнышке») требовалось сканирование сотен миллионов примеров.

После обучения, нынешняя модель способна с легкостью распознать, как выглядят кошки (или что угодно) на картинках или фотографиях. Указанные модели также можно использовать для выполнения других интересных задач ИИ. Например, создавать новые изображений только на основе подписи («Покажите мне коалу, бросающую мяч») или редактировать изображения с помощью письменных инструкций («Сделать так, будто бы эта обезьяна оплачивает налоги").


2. Как это работает

Базовые модели функционируют с помощью «глубоких нейронных сетей», которые частично основаны на принципах работы человеческого мозга. Они включают сложную математику и огромную вычислительную мощность, что в итоге сводится к процессу сопоставления с образцом.

Например, «глубокая нейронная сеть» может связать слово «кошка» с шаблонами пикселей, которые часто появляются на изображениях с кошками, например, с мягкими, нечеткими, мохнатыми пятнами текстуры. Чем больше примеров видит модель (чем больше подходящих результатов ей продемонстрировано) и чем сложнее сама модель (чем больше у нее «слоев» или «глубины»), тем сложнее могут быть эти шаблоны и корреляция.

В некотором смысле, фундаментальные модели — это просто расширенная модель «глубокого обучения», которая преобладала в исследованиях ИИ в последнее десятилетие. Тем не менее, у них проявляется незапрограммированное или «непредсказуемое» поведение, которое может быть не столько неожиданным, сколько непривычным.

Например, языковая система Google PaLM, по-видимому, способна объяснить сложные метафоры и шутки. Это выходит за рамки простой имитации разных типов информации, для обработки которых она изначально была разработана.


3. Доступ пока ограничен

Масштабы таких систем искусственного интеллекта ошеломляют. PaLM имеет 540 миллиардов параметров, а это означает, что даже если каждый на планете запомнит 50 чисел, у нас все равно не хватит памяти для воспроизведения модели.

Представленные модели настолько огромны, что их обучение требует значительных вычислительных и других ресурсов. Например, по приблизительной оценке, стоимость обучения языковой модели OpenAI GPT-3 составляет около 5 миллионов долларов США.

В результате, только крупные технологические компании, такие как OpenAI, Google и Baidu, могут позволить себе создавать фундаментальные модели в настоящее время. Эти компании ограничивают пользовательский доступ к системам, что является экономически целесообразно. Ограничения на использование несколько утешает в том смысле, что в ближайшее время эти системы не будут использоваться в гнусных целях (например, для создания фейковых новостей или клеветнических материалов). Но это также означает, что независимые исследователи не могут изучить работу таких моделей и разместить полученные результаты в открытый доступ. Так что пока мы еще не знаем всех последствий их использования.


4. Вклад моделей в «креативные» отрасли

В ближайшее время будет производится больше базовых моделей. Модели попроще уже выпускаются в версиях с открытым исходным кодом. Технологические компании начинают экспериментировать с лицензированием и коммерциализацией таких услуг, в то время как исследователи ИИ усердно работают, чтобы сделать технологию более эффективной и доступной.

Удивительная креативность, продемонстрированная PaLM и DALL-E 2, сигнализирует нам, что эта технология может затронуть творческие профессии намного раньше, чем ожидалось.

Как говорится, в первую очередь роботы возьмут на себя задачи «синих воротничков». Профессии, требующие творчества и образования, известные как «белые воротнички», должны были быть относительно защищены от автоматизации.

Но стоит отметить, что модели ИИ с «глубоким обучением» уже преуспевают в таких задачах, как анализ рентгеновских снимков и определение дегенерации желтого пятна сетчатки глаза. Фундаментальные модели вскоре могут предложить дешевые и «достаточно хорошие» креативные подходы в таких областях, как реклама, копирайтинг, иллюстрация или графический дизайн.

Будущее творческих профессий может оказаться несколько иным, чем мы предполагали.


5. Значение для законодательства, СМИ и новостей

Поскольку мы не сможем сказать, что творческий контент является результатом человеческой деятельности, фундаментальные модели в конечном итоге будут влиять на законодательство в таких областях, как интеллектуальная собственность и доказательственная база.

Нам также придется иметь дело с дезинформацией и фейками, которые создаются такими приложениям. Мы уже сталкиваемся с множеством проблем из-за дезинформации, как видно в разворачивающемся российском вторжении в Украину и зарождающейся проблеме фейковых изображений и видео. Однако фундаментальные модели способны значительно усугубить эти проблемы.


Пришло время планировать!

Как исследователи, изучающие влияние ИИ на общество, мы считаем, что базовые модели приведут к серьезным преобразованиям. Они находятся под жестким контролем (пока что), поэтому у нас еще может быть немного времени для изучения их последствия, прежде чем они станут большой проблемой. Джин еще не совсем выпущен из бутылки, но фундаментальные модели — это большая бутылка, а внутри сидит очень умный джин.