
Проблема “галюцинацій” штучного інтелекту загострюється
Незважаючи на значні досягнення в галузі штучного інтелекту, з’явилася тривожна тенденція: найновіші та найдосконаліші моделі ШІ, особливо ті, що використовують складні процеси "міркування", дедалі частіше генерують неточну або вигадану інформацію. Це явище зазвичай називають "галюцинаціями". Такий розвиток подій викликає подив навіть у лідерів індустрії та створює значні проблеми для широкого й надійного застосування технологій ШІ.
Нещодавнє тестування моделей провідних компаній, зокрема OpenAI та DeepSeek, виявило несподівані результати: ці нібито "розумніші" системи помиляються частіше, ніж їх попередні версії. За власними оцінками OpenAI, їхні останні моделі o3 та o4-mini, випущені у квітні, мають значно вищі показники галюцинацій, ніж попередня модель o1 2024 року випуску. Наприклад, при відповіді на запитання про публічних осіб модель o3 галюцинувала у 33% випадків, а o4-mini – аж у 48%. Для порівняння, o1 помилялася лише у 16% випадків.
І проблема не обмежується лише OpenAI. Незалежне тестування компанії Vectara, яке оцінює якість моделей ШІ, підтверджує подібні результати: багато моделей з функцією міркування, зокрема DeepSeek R1, також демонструють вагоме зростання рівня галюцинацій у порівнянні з попередніми версіями. Такі моделі з логічним мисленням намагаються імітувати людський процес обмірковування, розбиваючи завдання на кілька кроків перед формуванням відповіді.
Наслідки такого сплеску неточностей є значними. Оскільки чат-боти на базі штучного інтелекту дедалі більше інтегруються в різні сфери застосування – від обслуговування клієнтів і допомоги в дослідженнях до юриспруденції та медицини – надійність їхніх результатів стає першорядною. Бот служби підтримки, який надає невірну інформацію про політику компанії, як це сталося з користувачами програмного інструменту Cursor, або який посилається на неіснуючі судові прецеденти в юридичній практиці, може призвести до значного розчарування користувачів і навіть до серйозних наслідків у реальному світі.
Хоча компанії раніше припускали, що з оновленням моделей проблема зникне сама собою, нові дані свідчать про зворотне. В OpenAI визнають наявність проблеми: "Галюцинації не обов’язково властиві моделям міркування, але ми активно працюємо над зменшенням їх кількості в o3 та o4-mini", – зазначив представник компанії. Вони стверджують, що дослідження причин і зменшення галюцинацій у всіх моделях залишається пріоритетним завданням.
Чому ж моделі стають менш точними, хоча технологічно складнішими? Однозначної відповіді поки немає. Через величезні обсяги даних і складні математичні алгоритми, які використовуються для навчання моделей, визначити точну причину галюцинацій надзвичайно складно. Є припущення, що поетапне "мислення" в таких моделях міркування створює більше можливостей для накопичення помилок. Інші вважають, що методи навчання, як-от навчання з підкріпленням, корисні для задач з математики чи програмування, але можуть ненавмисно знижувати точність у фактичних відповідях.
Наразі дослідники активно шукають способи зменшити цю проблему. Серед потенційних рішень – навчання моделей виражати невпевненість у відповідях та використання підходу генерації з доповненим пошуком інформації (retrieval-augmented generation, RAG), який дозволяє ШІ перед генерацією відповіді звертатися до перевірених зовнішніх джерел.
Однак деякі експерти застерігають від використання терміна "галюцинація" для позначення помилок ШІ. Вони стверджують, що це некоректно відображає рівень свідомості чи сприйняття, яким не володіють моделі ШІ. Натомість вони розглядають ці неточності як фундаментальний аспект поточної ймовірнісної природи мовних моделей.
Незважаючи на зусилля з підвищення точності, нинішні тенденції свідчать: шлях до надійного ШІ складніший, ніж здавалося раніше. Наразі користувачам варто проявляти обережність та критичне мислення під час взаємодії навіть із найсучаснішими AI чат-ботами, особливо при пошуку фактичної інформації. Розвиток штучного інтелекту ще далекий від досконалості.