Автор текста человек или робот? Ученые создают инструмент-детектор
Повсеместное развитие искусственного интеллекта и, особенно, запуск ChatGPT от OpenAI с его удивительно точными и логическими ответами и диалогами взбудоражил общественное сознание и поднял новую волну интереса к большим языковым моделям (LLM). Определенно стало ясно, что их возможности больше, чем мы когда-либо предполагали. Заголовки отражали как восторг, так и поводы для беспокойства: могут ли роботы написать сопроводительное письмо? Могут ли помогать учащимся проходить тестирование? Будут ли они влиять на избирателей через социальные сети? Способны ли создавать дизайн вместо художников? Лишать писателей работы?
После яркого запуска ChatGPT теперь о появлении аналогичных моделей ведутся разговоры в Google, Meta и других компаниях. Исследователи компьютерных наук призывают к усилению контроля. Они считают, что обществу необходим новый уровень инфраструктуры и инструментов для защиты этих моделей, и сосредоточились на разработке такой инфраструктуры.
Одним из таких ключевых средств защиты может стать инструмент, который сможет предоставить учителям, журналистам и гражданам возможность различать тексты, созданные LLM, от текстов, написанных человеком.
С этой целью Эрик Энтони Митчелл, аспирант четвертого курса компьютерных наук Стэнфордского университета и работающий над защитой докторской степени, вместе с коллегами разработали DetectGPT. Он вышел в релиз в виде демонстрации и документа, который различает текст, сгенерированный LLM, от текста, написанного человеком. В первоначальных экспериментах инструмент точно определял авторство в 95% случаев в пяти популярных языковых моделей с открытым исходным кодом. Инструмент находится на ранней стадии разработки, но Митчелл и его коллеги работают над тем, чтобы в будущем он принес огромную пользу обществу.
Ранее уже проводились исследования некоторых общих подходов к решению проблемы идентификации авторства текстов. Один из подходов, используемый самим OpenAI, включает в себя обучение модели текстами двух видов: одни тексты сгенерированы LLM, а другие создавались людьми. Затем модель просят определить автора текста. Но, по мнению Митчелла, чтобы это решение было успешным в разных предметных областях и на разных языках, подход потребует огромного количества данных для обучения.
Второй существующий подход позволяет избежать обучения новой модели и просто использует LLM, на которую подается текст с целью обнаружения собственных выходных данных.
По сути, этот способ заключается в том, чтобы спросить LLM насколько ей «нравится» образец текста, говорит Митчелл. И под критерием «нравится» он не имеет в виду, что это разумная модель, у которой есть предпочтения. Скорее, если модели «нравится» фрагмент текста, это можно рассматривать как высокую оценку этому тексту от модели. Митчел предполагает, что если модели нравится текст, то вероятно, что этот текст был сгенерирован ею или подобными моделями. Если же текст не нравится, то скорее всего, он создан не LLM. По мнению Митчелла, этот подход работает намного лучше, чем случайное угадывание.
Митчелл предположил, что даже самые мощные LLM имеют некие предубеждения насчет использования одной формулировки идеи вместо другой. LLM будет склонна меньше «любить» любую минимальную перефразировку своих собственных результатов, чем свой же оригинал. В то же время, если исказить текст, созданный человеком, вероятность того, что модели он понравится больше или меньше оригинала примерно одинакова.
Митчелл также понял, что эту теорию можно проверить с помощью популярных моделей с открытым исходным кодом, в том числе доступных через API OpenAI. Ведь вычисление того, насколько модели нравится конкретный фрагмент текста, это, по сути, ключ к обучению модели. Это может оказаться очень полезным.
Чтобы проверить свое предположение Митчелл и его коллеги провели эксперименты, в ходе которых они наблюдали, насколько различным общедоступным LLM нравится текст, сгенерированный людьми, а также их собственный текст, сгенерированный LLM. В подборку текстов включались выдуманные новостные статьи, творческие письма и академические эссе. Исследователи также измеряли насколько LLM в среднем понравились 100 искажений каждого текста, созданного LLM и человеком. После всех измерений команда построила график разницы между этими двумя числами: для текстов LLM и для текстов, написанных людьми. Они увидели две кривые нормального распределения, которые едва перекрывались. Исследователи сделали вывод, что можно очень хорошо различать источник текстов, используя это единственное число. Таким образом, можно получить гораздо более надежный результат по сравнению с методами, которые просто измеряют насколько модели нравится исходный текст.
В первоначальных экспериментах команды DetectGPT успешно классифицировал текст, созданный человеком, и текст, созданный LLM, в 95% случаев при использовании GPT3-NeoX, мощного варианта моделей GPT OpenAI с открытым исходным кодом. DetectGPT также был способен обнаруживать текст, созданный человеком, и текст, сгенерированный LLM, с использованием LLM, отличных от исходной модели, но с несколько меньшей достоверностью. На момент первоначальных экспериментов ChatGPT был еще недоступен для прямого тестирования.
Другие компании и команды также ищут способы идентифицировать текст, написанный ИИ. Например, OpenAI уже выпустила свой новый классификатор текста. Однако, Митчелл не хочет напрямую сравнивать результаты OpenAI с результатами DetectGPT, поскольку нет стандартизированного набора данных для оценки. Но его команда провела несколько экспериментов с использованием предварительно обученного ИИ-детектора OpenAI предыдущего поколения и обнаружила, что он хорошо работает с новостными статьями на английском языке, плохо работает с медицинскими статьями и полностью терпит неудачу с новостными статьями на немецком языке. По его словам, такие смешанные результаты характерны для моделей, которые зависят от предварительной подготовки. В отличие от этого, DetectGPT работал удовлетворительно для всех трех указанных категорий текстов.
Отзывы пользователей DetectGPT уже помогли выявить некоторые уязвимости. Например, человек может специально так задать запрос к ChatGPT, чтобы избежать определения автора, к примеру, специально попросит LLM написать текст подобно человеку. У команды Митчела уже есть несколько идей, как смягчить этот недостаток, но они еще не проверялись.
Еще одна проблема заключается в том, что студенты, использующие LLM, такие как ChatGPT, для обмана при выполнении заданий будут просто редактировать сгенерированный ИИ текст, чтобы избежать обнаружения работы LLM. Митчелл и его команда исследовали эту возможность в своей работе и обнаружили, что, несмотря на снижение качества обнаружения отредактированных эссе, система по-прежнему неплохо справляется с обнаружением машинно-генерируемого текста, когда менее 10–15% слов были изменены.
В долгосрочной перспективе цель команды DetectGPT состоит в том, чтобы предоставить общественности надежный и действенный инструмент прогнозирования того, был ли текст, полностью или хотя бы его часть, сгенерировано машиной. Даже если модель не думает, что все эссе или новостная статья были написаны машиной, необходим инструмент, который может выделить абзац или предложение, которые выглядят особенно машинно-созданными.
Стоит подчеркнуть, что, по мнению Митчелла, существует множество законных вариантов использования LLM в образовании, журналистике и других сферах. Однако предоставление обществу инструментов для проверки источника информации всегда было полезным и остается таковым даже в эпоху ИИ.
DetectGPT — лишь одна из нескольких работ, которые Митчелл создает для LLM. В прошлом году он также опубликовал несколько подходов к редактированию LLM, а также стратегию под названием «самоуничтожающиеся модели», которая отключает LLM, когда некто пытается использовать ее в гнусных целях.
Прежде чем защитить докторскую диссертацию, Митчелл надеется усовершенствовать каждую из этих стратегий хотя бы еще раз.
Исследование опубликовано на сервере препринтов arXiv.