Вчені знайшли ключ до контролю поведінки ШІ
Протягом багатьох років внутрішній устрій великих мовних моделей (LLM), таких як Llama і Claude, порівнювали з “чорною скринькою” – величезною, складною та надзвичайно важкою в управлінні. Але команда дослідників з Каліфорнійського університету в Сан-Дієго та Массачусетського технологічного інституту щойно опублікувала дослідження в журналі Science, яке свідчить, що ця скринька не така вже й загадкова, як ми думали.
Учені виявили, що складні концепції в рамках ШІ: від конкретних мов, таких як хінді, до абстрактних ідей, як теорії змови, – насправді зберігаються як прості прямі лінії, або вектори, в математичному просторі моделі.
Використовуючи новий інструмент під назвою Recursive Feature Machine (RFM) – метод вилучення ознак, який ідентифікує лінійні закономірності, які представляють концепції (від настроїв і страхів до складних міркувань), дослідники змогли точно визначити ці лінійні траєкторії. Після того, як напрямок концепції ідентифіковано, її можна “підштовхнути”. Математично додаючи або віднімаючи ці вектори, користувачі можуть змусити модель миттєво змінити свою поведінку без необхідності дорогого перенавчання або використання складних промптів.
Ефективність цього методу викликає великий інтерес у галузі. Використовуючи лише один стандартний графічний процесор (GPU NVIDIA A100), команда змогла визначити і спрямувати концепт менш ніж за хвилину, використовуючи менше ніж 500 навчальних зразків.
Практичне застосування такого “хірургічного” підходу до ШІ визначили швидко. В одному з експериментів дослідники налаштували модель, щоб покращити її здатність перекладати код Python на C++. Відокремивши “логіку” коду від “синтаксису” мови, модель перевершила стандартні версії, яким просто дали завдання “перекласти” через текстовий промпт.
Дослідники також виявили, що внутрішнє “зондування” цих векторів є більш ефективним способом виявлення галюцинацій ШІ або токсичного контенту, ніж прохання до моделі оцінити власну роботу. По суті, модель часто “знає”, що вона бреше або генерує шкідливий контент, навіть якщо її кінцевий результат свідчить про протилежне. Аналізуючи внутрішню математику, дослідники можуть виявити ці проблеми ще до того, як буде згенеровано хоча б одне слово.
Однак та сама технологія, яка робить ШІ безпечнішим, також може зробити його небезпечнішим. Дослідження продемонструвало, що, “зменшуючи” важливість концепції відмови, дослідники можуть фактично “взламати” модель. У тестах керовані моделі обходили власні обмеження, щоб надавати інструкції щодо незаконних дій або просувати спростовані теорії змови.
Мабуть, найдивовижнішим відкриттям стала універсальність цих концепцій. Вектор “теоретика змови”, отриманий з даних англійською мовою, працював так само ефективно, коли модель розмовляла китайською або хінді. Це підтверджує “гіпотезу лінійного представлення” – ідею про те, що моделі штучного інтелекту організовують людські знання структурованим, лінійним способом незалежно від конкретної мови.
Хоча дослідження зосереджувалося на моделях з відкритим кодом, таких як Llama та DeepSeek, а також GPT-4о, дослідники вважають, що висновки можуть бути застосовані до всіх. Коли моделі стають більшими та складнішими, вони насправді стають більш керованими, а не навпаки.
Наступна мета команди – удосконалити ці методи керування, щоб вони адаптувалися до конкретних дій користувача в режимі реального часу. Це потенційно може призвести до майбутнього, де ШІ – це не просто чат-бот, з яким ми спілкуємося, а система, яку ми можемо математично “налаштувати” для ідеальної точності та безпеки.