Внутри мозга ИИ: память vs. рассуждения

Новое исследование выявляет скрытый разрыв между памятью и интеллектом AI

Внутри мозга ИИ: память vs. рассуждения

Исследователи получили убедительные доказательства того, что большие языковые модели (LLM) хранят память и логическое мышление в отдельных нейронных путях. Это открытие может привести к созданию более безопасных и прозрачных систем ИИ, которые смогут “забывать” конфиденциальные данные, не теряя при этом способности мыслить.

Большие языковые модели, такие как модели семейства GPT, работают благодаря двум основным возможностям:

  1. Памяти, которая позволяет модели воспроизводить точные факты, цитаты или фрагменты из обучающих данных.
  2. Рассуждению, которое позволяет применять общие принципы для решения новых задач.

До сих пор ученые не были уверены, были ли эти две функции глубоко связаны между собой или имели свою внутреннюю архитектуру. Новое исследование показало, что разграничение между ними удивительно четкое. Механическое запоминание основано на узких, специализированных нейронных путях, тогда как логическое мышление и решение задач использует более широкие, общие компоненты. Самое важное – исследователи продемонстрировали, что могут целенаправленно удалить цепочки памяти с минимальным влиянием на способность модели мыслить.

В своих экспериментах на языковых моделях ученые проанализировали миллионы нейронных весов и отсортировали их по показателю, который называется “кривизна” (curvature). Этот параметр показывает, насколько чувствительна производительность модели к небольшим изменениям в настройках. Высокая кривизна указывает на гибкие, универсальные пути; низкая кривизна обозначает узкие, специализированные пути. Когда исследователи удалили компоненты с низкой кривизной – по сути, отключив “схемы памяти” – модель потеряла 97% своей способности вспоминать обучающие данные, но сохранила почти все свои навыки к рассуждению.

Одним из самых неожиданных открытий стало то, что арифметические операции используют те же нейронные пути, что и память, а не логическое мышление. После удаления компонентов, связанных с памятью, математические показатели резко снизились, тогда как логическое решение задач осталось почти неизменным.

Это свидетельствует о том, что в настоящее время ИИ “запоминает” математику, а не вычисляет ее, подобно ученику, который просто зазубрил таблицу умножения. Это открытие может объяснить, почему языковые модели часто не справляются даже с простыми математическими задачами без вспомогательных инструментов.

Команда исследователей визуализировала внутренний “ландшафт потерь” модели – концептуальную карту того, насколько правильными или неправильными являются прогнозы ИИ по мере изменения его внутренних настроек. С помощью математического инструмента под названием K-FAC (Kronecker-Factored Approximate Curvature) они определили, какие участки сети отвечают за память, а какие – за рассуждения.

Тесты проводились на различных системах, в частности визуальных моделях, которые были обучены на намеренно неправильно промаркированных изображениях. Их результати подтвердили закономерность: после отключения компонентов памяти способность к воспроизведению данных упала до 3%, но задачи на рассуждения, такие как логический вывод, утверждения на основе здравого смысла и научное обоснование, остались на уровне 95-106% от базового уровня.

Понимание этих внутренних разделений имеет важные последствия для безопасности и управления ИИ. Модели, которые запоминают текст дословно, рискуют утечкой частной информации, нарушением авторского права или распространением вредоносного контента. Если разработчики смогут выборочно отключать или редактировать схемы памяти, они смогут создавать системы ИИ, которые сохраняют интеллект, одновременно удаляя конфиденциальные или предвзятые данные.

Хотя указанная технология еще не обеспечивает полного и окончательного “забывания”, ведь некоторые данные могут “вернуться” во время дальнейшего обучения, это исследование является важным шагом к улучшению прозрачности ИИ и пониманию того, как именно мыслит искусственный интеллект.