
Чи має ШІ проблеми з впевненістю?
У новій серії експериментів дослідники з Google DeepMind та Університетського коледжу Лондона виявили, що великі мовні моделі (LLMs), такі як GPT-4o, Gemma 3 та o1-preview, стикаються з несподіваною подвійною проблемою: вони часто надмірно впевнені у своїх початкових відповідях, але при цьому надто сумніваються, коли їм протиставляють іншу точку зору.
Великі мовні моделі є основою сучасних систем штучного інтелекту, що забезпечують роботу як віртуальних помічників, так і систем прийняття рішень у сферах охорони здоров'я, фінансів, освіти тощо. Вплив LLMs постійно зростає, тож від них очікують не лише точності, а й послідовності та прозорості у формуванні висновків. Проте останні дослідження свідчать, що мовні моделі, хоч і вдосконалюються, але не завжди діють з тією раціональною точністю, яку ми від них очікуємо.
В основі нового дослідження лежить парадокс: ШІ-моделі, як правило, вперто дотримуються своєї першої відповіді, коли їм про це нагадують, демонструючи так зване “упередження на користь вибору” (choice-supportive bias). Проте, коли їхні відповіді ставлять під сумнів – особливо, коли їм дають протилежну пораду – вони часто втрачають впевненість і змінюють свою думку, навіть якщо ця порада хибна.
Щоб дослідити це явище, учені розробили унікальну двоетапну систему тестування. Спочатку модель відповідала на питання з двома варіантами вибору, наприклад, яке з двох міст розташоване далі на північ. Потім модель отримувала “пораду” від іншої LLM з різним ступенем узгодженості та впевненості. Наприкінці початкова модель мала прийняти остаточне рішення.
Ключовою особливістю експерименту стало те, що дослідники контролювали, чи бачить модель свою першу відповідь. Коли початкова відповідь була видима, модель ставала більш впевненою і менш схильною змінювати думку. Коли відповідь була прихована – модель проявляла більшу гнучкість, що свідчить про вплив пам’яті про власний вибір на ухвалення рішень.
Ці результати формують образ LLM як цифрових механізмів прийняття рішень із дуже людськими рисами. Подібно до людей, вони схильні підсилювати впевненість у початковому виборі, навіть якщо з’являється нова, протилежна інформація. Така поведінка, ймовірно, зумовлена прагненням до внутрішньої послідовності, а не до ідеальної логіки.
Цікаво, що дослідження також виявило надмірну чутливість моделей до протилежних порад. Замість того, щоб рівномірно враховувати всю нову інформацію, моделі частіше надавали перевагу протилежним думкам. Ця гіперчутливість призводила до різкого падіння впевненості, навіть якщо початкова відповідь була правильною.
Така поведінка суперечить так званому нормативному байєсівському уточненню (normative Bayesian updating) – способу інтегрувати нові дані пропорційно їхній надійності. Натомість LLM переоцінюють негативний зворотній зв’язок і недооцінюють підтвердження, що вказує на форму прийняття рішень, яка не є суто раціональною, а формується під впливом внутрішніх упереджень.
Хоча попередні дослідження пояснювали подібну поведінку “підлабузництвом” (sycophancy) – схильністю моделі підлаштовуватися під пропозиції користувачів, нове дослідження виявило більш складну картину. Підлабузництво зазвичай призводить до симетричного реагування на згоду і незгоду, тоді як тут моделі показали асиметричну реакцію: вони радше реагують на незгоду, ніж на підтримку.
Це свідчить про дію двох окремих механізмів: гіперчутливість до протиріч, що викликає різкі зміни впевненості, та упередження на користь вибору, яке заохочує дотримуватися попередніх рішень. Примітно, що другий ефект зникає, якщо початкова відповідь належить іншому агенту, а не самій моделі, що підтверджує прагнення до самопослідовності, а не просто повторення.
Ці відкриття мають важливі наслідки для розробки та застосування систем ШІ у реальному житті. У динамічних сферах, таких як медицина чи автономні транспортні засоби, де рішення є високоризиковими і можуть часто змінюватися, моделі повинні балансувати між гнучкістю та впевненістю. Той факт, що LLM можуть чіплятися за перші відповіді або надмірно реагувати на критику, може призвести до нестабільної або непередбачуваної поведінки в складних ситуаціях.
Крім того, паралелі з людськими когнітивними упередженнями порушують філософські й етичні питання: чи можемо ми повністю довіряти ШІ, якщо він віддзеркалює наші власні слабкості? Чи варто створювати майбутні моделі з механізмами контролю і корекції таких упереджень?
Дослідники сподіваються, що їхня робота надихне на нові підходи до навчання ШІ, що виходять за межі навчання з підкріпленням за допомогою зворотного зв'язку від людини (RLHF), яке, як виявляється, може стимулювати схильність до лестощів. Розробка моделей, здатних точно оцінювати і коригувати свою впевненість без втрати раціональності або надмірної покори, може наблизити нас до створення справді надійного штучного інтелекту.
Ознайомитися з повним текстом дослідження можна у статті “How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models”.