Ученые нашли ключ к контролю поведения ИИ
В течение многих лет внутреннее устройство больших языковых моделей (LLM), таких как Llama и Claude, сравнивали с “черным ящиком” – огромным, сложным и чрезвычайно тяжелым в управлении. Но команда исследователей из Калифорнийского университета в Сан-Диего и Массачусетского технологического института только что опубликовала исследование в журнале Science, которое свидетельствует, что этот ящик не такой уж загадочный, как мы думали.
Ученые обнаружили, что сложные концепции в рамках ИИ: от конкретных языков, таких как хинди, до абстрактных идей, как теории заговора, – действительно сохраняются как простые прямые линии, или векторы, в математическом пространстве модели.
Используя новый инструмент под названием Recursive Feature Machine (RFM) – метод извлечения признаков, идентифицирующий линейные закономерности, которые представляют концепции (от настроений и страхов до сложных соображений), исследователи смогли точно определить эти линейные траектории. После того, как направление концепции идентифицировано, ее можно “подтолкнуть”. Математически добавляя или вычитая эти векторы, пользователи могут заставить модель мгновенно изменить свое поведение без необходимости дорогостоящего переобучения или использования сложных промптов.
Эффективность этого способа вызывает большой энтузиазм в отрасли. Используя только один стандартный графический процессор (GPU NVIDIA A100), команда смогла определить и направить концепт менее чем за минуту, используя менее 500 обучающих образцов.
Практическое применение такого “хирургического” подхода к ИИ выявили быстро. В одном из экспериментов исследователи настроили модель, чтобы улучшить ее способность переводить код Python на C++. Отделив “логику” кода от “синтаксиса” языка, модель превзошла стандартные версии, которым просто дали задачу “перевести” через текстовый промпт.
Исследователи также обнаружили, что внутреннее “зондирование” этих векторов является более эффективным способом выявления галлюцинаций ИИ или токсического контента, чем просьба к модели оценить свою работу. По сути, модель часто “знает”, что она лжет или генерирует вредоносный контент, даже если ее конечный результат свидетельствует об обратном. Анализируя внутреннюю математику, исследователи могут выявить эти проблемы еще до того, как будет сгенерировано хотя бы одно слово.
Однако та же технология, которая делает ИИ более безопасным, также может сделать его более опасным. Исследование продемонстрировало, что, “уменьшая” важность концепции отказа, исследователи могут фактически “взломать” модель. В тестах управляемые модели обходили собственные ограничения, чтобы давать инструкции по незаконным действиям или продвигать опровергнутые теории заговора.
Пожалуй, самым удивительным открытием стала универсальность этих концепций. Вектор “теоретика заговора”, полученный из данных на английском языке, работал так же эффективно, когда модель говорила на китайском или хинди. Это подтверждает “гипотезу линейного представления” – идею о том, что модели искусственного интеллекта организовывают человеческие знания структурированным, линейным способом независимо от конкретного языка.
Хотя исследование сосредоточилось на моделях с открытым кодом, таких как Llama и DeepSeek, а также GPT-4о, ученые полагают, что выводы применимы ко всем. Когда модели становятся больше и сложнее, они на самом деле становятся более управляемыми, а не наоборот.
Следующая цель команды – усовершенствовать эти методы управления, чтобы они адаптировались к конкретным действиям пользователя в режиме реального времени. Это потенциально может привести к будущему, где ИИ – это не просто чат-бот, с которым мы общаемся, а система, которую мы можем математически “настроить” для идеальной точности и безопасности.