
Проблема “галлюцинаций” искусственного интеллекта обостряется
Несмотря на значительные достижения в области искусственного интеллекта, появилась тревожная тенденция: последние и самые совершенные модели ИИ, особенно те, которые используют сложные процессы «рассуждения», все чаще генерируют неточную или вымышленную информацию. Это явление обычно называют «галлюцинациями». Такое развитие событий вызывает недоумение даже у лидеров индустрии и создает значительные проблемы для широкого и надежного применения технологий ИИ.
Недавнее тестирование моделей ведущих компаний, в частности OpenAI и DeepSeek, выявило неожиданные результаты: эти якобы «более умные» системы ошибаются чаще, чем их предыдущие версии. По собственным оценкам OpenAI, их последние модели o3 и o4-mini, выпущенные в апреле, имеют значительно более высокие показатели галлюцинаций, чем предыдущая модель o1 2024 года выпуска. Например, при ответе на вопрос о публичных личностях модель o3 галлюцинировала в 33% случаев, а o4-mini – аж в 48%. Для сравнения, o1 ошибалась только в 16% случаев.
И проблема не ограничивается только OpenAI. Независимое тестирование компании Vectara, которое оценивает качество моделей ИИ, подтверждает подобные результаты: многие модели с функцией рассуждения, в частности DeepSeek R1, также демонстрируют значительный рост уровня галлюцинаций по сравнению с предыдущими версиями. Такие модели с логическим мышлением пытаются имитировать человеческий процесс размышления, разбивая задачу на несколько шагов перед формированием ответа.
Последствия такого всплеска неточностей значительны. Поскольку чат-боты на базе искусственного интеллекта все больше интегрируются в различные сферы применения – от обслуживания клиентов и помощи в исследованиях до юриспруденции и медицины – надежность их результатов становится первостепенной. Бот службы поддержки, который предоставляет неверную информацию о политике компании, как это произошло с пользователями программного инструмента Cursor, или который ссылается на несуществующие судебные прецеденты в юридической практике, может привести к значительному разочарованию пользователей и даже к серьезным последствиям в реальном мире.
Хотя компании ранее предполагали, что с обновлением моделей проблема исчезнет сама собой, новые данные свидетельствуют об обратном. В OpenAI признают наличие проблемы: «Галлюцинации не обязательно свойственны моделям с рассуждением, но мы активно работаем над уменьшением их количества в o3 и o4-mini», – отметил представитель компании. Они утверждают, что исследование причин и уменьшение галлюцинаций во всех моделях остается приоритетной задачей.
Почему же модели становятся менее точными, хотя технологически более сложными? Однозначного ответа пока нет. Из-за огромных объемов данных и сложных математических алгоритмов, используемых для обучения моделей, определить точную причину галлюцинаций чрезвычайно сложно. Есть предположение, что поэтапное «мышление» в таких моделях рассуждения создает больше возможностей для накопления ошибок. Другие считают, что методы обучения, такие как обучение с подкреплением, полезны для задач по математике и программированию, но могут непреднамеренно снижать точность в фактических ответах.
Сейчас исследователи активно ищут способы уменьшить эту проблему. Среди потенциальных решений – обучение моделей выражать неуверенность в ответах и использование подхода генерации с дополненной выборкой информации (retrieval-augmented generation, RAG), который позволяет ИИ перед генерацией ответа обращаться к проверенным внешним источникам.
Однако некоторые эксперты предостерегают от использования термина «галлюцинация» для обозначения ошибок ИИ. Они утверждают, что это некорректно отражает уровень сознания или восприятия, которым не обладают модели ИИ. Вместо этого они рассматривают эти неточности как фундаментальный аспект текущей вероятностной природы языковых моделей.
Несмотря на усилия по повышению точности, нынешние тенденции свидетельствуют: путь к надежному ИИ сложнее, чем казалось ранее. Сейчас пользователям стоит проявлять осторожность и критическое мышление при взаимодействии даже с самыми современными AI чат-ботами, особенно при поиске фактической информации. Развитие искусственного интеллекта еще далеко от совершенства.