Всередині мозку ШІ: пам'ять vs. міркування
Дослідники отримали переконливі докази того, що великі мовні моделі (LLM) зберігають пам'ять і логічне мислення в окремих нейронних шляхах. Це відкриття може привести до створення більш безпечних і прозорих систем ШІ, які зможуть “забувати” конфіденційні дані, не втрачаючи при цьому здатності мислити.
Великі мовні моделі, такі як моделі сімейства GPT, працюють завдяки двом основним можливостям:
- Пам’яті, що дозволяє моделі відтворювати точні факти, цитати або фрагменти з навчальних даних.
- Міркуванню, що дає змогу застосовувати загальні принципи для розв’язання нових завдань.
Досі вчені не були впевнені, чи ці дві функції були глибоко пов'язані між собою, чи мали свою внутрішню архітектуру. Нове дослідження виявило, що розмежування між ними є напрочуд чітким. Механічне запам'ятовування базується на вузьких, спеціалізованих нейронних шляхах, тоді як логічне мислення та вирішення задач використовує ширші, спільні компоненти. Найважливіше – дослідники продемонстрували, що можуть цілеспрямовано видалити ланцюги запам'ятовування з мінімальним впливом на здатність моделі мислити.
У своїх експериментах на мовних моделях вчені проаналізували мільйони нейронних ваг і відсортували їх за показником, який називається “кривина” (curvature). Цей параметр показує, наскільки чутлива продуктивність моделі до невеликих змін у налаштуваннях. Висока кривина вказує на гнучкі, універсальні шляхи; низька кривина позначає вузькі, спеціалізовані шляхи. Коли дослідники видалили компоненти з низькою кривзною – по суті, вимкнувши “схеми пам'яті” – модель втратила 97% своєї здатності згадувати навчальні дані, але зберегла майже всі свої навички міркування.
Одним з найнесподіваніших відкриттів стало те, що арифметичні операції використовують ті самі нейронні шляхи, що й пам’ять, а не логічне мислення. Після видалення компонентів, пов'язаних із пам'яттю, математичні показники різко знизилися, тоді як логічне вирішення задач залишилося майже незмінним.
Це свідчить про те, що на цей час ШІ “запам'ятовує” математику, а не обчислює її, подібно до учня, який просто зазубрив таблицю множення. Це відкриття може пояснити, чому мовні моделі часто не справляються навіть із простими математичними завданнями без допоміжних інструментів.
Команда дослідників візуалізувала внутрішній “ландшафт втрат” моделі – концептуальну карту того, наскільки правильними або неправильними є прогнози ШІ в міру зміни його внутрішніх налаштувань. За допомогою математичного інструменту під назвою K-FAC (Kronecker-Factored Approximate Curvature) вони визначили, які ділянки мережі відповідають за пам’ять, а які – за міркування.
Тести проводились на різних системах, зокрема візуальних моделях, які були навчені на навмисно неправильно маркованих зображеннях. Їх результати підтвердили закономірність: після вимкнення компонентів пам’яті здатність до відтворення даних впала до 3%, але завдання на міркування, такі як логічний висновок, твердження на основі здорового глузду та наукове обґрунтування, залишилися на рівні 95-106% від базового рівня.
Розуміння цих внутрішніх поділів має важливі наслідки для безпеки та управління ШІ. Моделі, які запам'ятовують текст дослівно, ризикують витоком приватної інформації, порушенням авторського права, або поширенням шкідливого контенту. Якщо розробники зможуть вибірково вимикати або редагувати схеми пам'яті, вони зможуть створювати системи ШІ, які зберігають інтелект, одночасно видаляючи конфіденційні або упереджені дані.
Хоча зазначена технологія ще не забезпечує повного й остаточного “забування”, адже деякі дані можуть “повернутися” під час подальшого навчання, це дослідження є важливим кроком до покращення прозорості ШІ і розуміння того, як саме мислить штучний інтелект.