Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Есть ли у ИИ проблемы с уверенностью?

В новой серии экспериментов исследователи из Google DeepMind и Университетского колледжа Лондона обнаружили, что большие языковые модели (LLMs), такие как GPT-4o, Gemma 3 и o1-preview, сталкиваются с неожиданной двойной проблемой: они часто проявляют чрезмерную уверенность в своих первоначальных ответах, но при этом легко теряют ее, сталкиваясь с противоположным мнением.

Большие языковые модели лежат в основе современных систем искусственного интеллекта: от виртуальных помощников до систем поддержки принятия решений в медицине, финансах и образовании. Их растущее влияние требует не только точности, но и последовательности и прозрачности в формировании выводов. Однако последние исследования показывают, что эти модели, несмотря на свою продвинутость, не всегда действуют с той рациональной точностью, которую мы от них ожидаем.

В основе нового исследования лежит парадокс: ИИ-модели, как правило, упорно придерживаются своего изначального ответа, особенно если им об этом напоминают, демонстрируя так называемое “предубеждение в пользу выбора” (choice-supportive bias). Но как только их мнение подвергается сомнению – особенно, когда им дают противоположный совет – они часто теряют уверенность и меняют решение, даже если этот совет ошибочен.

Чтобы изучить это поведение, исследователи разработали уникальную двухэтапную методику тестирования. Сначала модель должна была ответить на вопрос с двумя вариантами ответа, например, определить, какой из городов расположен севернее. Затем LLM получала “совет” от другой модели с различной степенью уверенности и согласия. В завершение первая модель должна была принять окончательное решение.

Ключевой особенностью эксперимента стало то, что исследователи контролировали, видит ли модель свой изначальный ответ. Когда он был видим, модель становилась более уверенной и реже меняла мнение. Когда же ответ скрывали – поведение становилось более гибким, что указывает на влияние памяти о собственном выборе на последующие решения.

Эти результаты формируют образ LLM как цифровых систем принятия решений с удивительно человеческими характеристиками. Подобно людям, модели склонны укрепляться в первоначальном выборе, даже когда появляются новые, противоречивые данные. Такое поведение, вероятно, обусловлено стремлением к внутренней последовательности, а не к идеальной логике.

Примечательно, что исследование также выявило чрезмерную чувствительность моделей к противоположным советам. Вместо того, чтобы равномерно учитывать всю новую информацию, модели чаще отдавали предпочтение противоположным мнениям. Эта гиперчувствительность приводила к резкому снижению уверенности, даже если первоначальный ответ был правильным.

Это поведение противоречит так называемому нормативному байесовскому уточнению (normative Bayesian updating) – способу интегрировать новые данные пропорционально их надежности. Вместо этого LLM переоценивают негативную обратную связь и недооценивают подтверждение, что указывает на форму принятия решений, которая не является сугубо рациональной, а формируется под влиянием внутренних предубеждений.

Хотя предыдущие исследования объясняли подобное поведение “подхалимством” (sycophancy) – склонностью модели соглашаться с мнением пользователя, новое исследование выявило более сложную ситуацию. Подхалимство обычно приводит к симметричному реагированию на согласие и несогласие, тогда как здесь модели продемонстрировали асимметричную реакцию: они охотнее реагируют на несогласие, чем на поддержку.

Это свидетельствует о действии двух отдельных механизмов: гиперчувствительность к противоречиям, вызывающая резкие колебания уверенности, и предубеждение в пользу выбора, которое поощряет придерживаться предыдущих решений. Примечательно, что второй эффект исчезает, если изначальный ответ принадлежит другому агенту, а не самой модели, что подтверждает стремление к самосогласованности, а не просто повторению.

Эти открытия имеют важные последствия для разработки и применения систем ИИ в реальной жизни. В динамичных сферах, таких как медицина или автономные транспортные средства, где ставки высоки и ситуация может быстро меняться, модели должны уметь сохранять баланс между уверенностью и гибкостью. Тот факт, что LLM могут цепляться за первые ответы или чрезмерно реагировать на критику, может привести к нестабильному или непредсказуемому поведению в сложных ситуациях.

Кроме того, сходство с человеческими когнитивными предубеждениями поднимает философские и этические вопросы: можем ли мы полностью доверять ИИ, если он отражает наши собственные слабости? Стоит ли создавать будущие модели с механизмами контроля и коррекции таких предубеждений?

Исследователи надеются, что их работа вдохновит на новые подходы к обучению ИИ, выходящие за пределы обучения с подкреплением с помощью обратной связи от человека (RLHF), которое, как оказывается, может поощрять склонность к лести. Разработка моделей, способных точно оценивать и корректировать уровень собственной уверенности без потери рациональности или чрезмерной покорности, может приблизить нас к созданию действительно надежного искусственного интеллекта.

Полный текст исследования доступен в статье “How Overconfidence in Initial Choices and Underconfidence Under Criticism Modulate Change of Mind in Large Language Models”.