30 Червня, 2025

Прихована упередженість у мовних моделях

Великі мовні моделі (LLMs), такі як GPT-4 і Claude, кардинально змінили світ штучного інтелекту завдяки своїй здатності обробляти та генерувати текст, схожий за стилем на людську мову. Проте за їхніми вражаючими можливостями ховається складна проблема, яку часто не помічають: позиційне упередження (position bias). Йдеться про схильність цих моделей приділяти більше уваги словам на початку й наприкінці документа, нехтуючи змістом у середині. Це може мати серйозні наслідки, потенційно призводячи до неточних або неповних відповідей ШІ-систем.

Команда дослідників з Массачусетського технологічного інституту (MIT) визначила основну причину цього недоліку. Їхнє дослідження показує, що позиційна упередженість виникає не лише через навчальні дані для LLM, але й через фундаментальні рішення в самій архітектурі моделі – зокрема, як трансформери обробляють зв’язки між словами та розподіляють увагу.

Трансформери – нейромережева архітектура, що лежить в основі більшості LLMs. Вони працюють, перетворюючи речення на токени та вивчаючи зв’язки між ними. Щоб обробляти довгі тексти, модель використовує механізм уваги (attention mechanisms), що дозволяє кожному токену вибірково “зосереджуватися” на пов’язаних токенах у тексті, допомагаючи моделі зрозуміти контекст.

Однак через величезні обчислювальні витрати, пов’язані з тим, що кожен токен повинен враховувати всі інші токени, розробники часто використовують причинне маскування (causal masks). Ці обмеження дозволяють токену зважати лише на попередні токени в послідовності. До моделей також додають позиційне кодування, яке допомагає визначити порядок слів у реченні.

Команда MIT створила теоретичну графову модель, щоб дослідити, як ці архітектурні рішення впливають на розподіл уваги в моделі. Аналіз показав: маскування причинності природно зміщує фокус моделі до початку тексту, незалежно від важливості змісту. Більше того, чим більше шарів уваги додається – звичайна стратегія для підвищення продуктивності моделі – тим сильнішим стає упередженість.

Це відкриття відповідає реальним проблемам, з якими стикаються розробники, які працюють над прикладними системами ШІ. Дізнайтеся більше про досвід QuData у створенні більш розумної системи генерації з доповненим пошуком (RAG) з використанням графових баз даних. Наш кейс розглядає деякі обмеження архітектури моделей і демонструє, як на практиці зберегти структуровані взаємозв'язки та контекстну релевантність.

За словами Сіньї Ву (Xinyi Wu), аспірантки MIT та головної авторки дослідження, їхній фреймворк допоміг показати, що навіть якщо самі дані є нейтральними, архітектура моделі може впливати на те, куди спрямовується увага ШІ.

Щоб перевірити свою теорію, дослідники провели експерименти, розміщуючи правильні відповіді у різних частинах тексту. Вони виявили чітку U-подібну закономірність: моделі працювали найкраще, коли відповідь була на початку, дещо гірше – в кінці, і найгірше – в середині. Це явище вони назвали “загубленість посередині” (lost-in-the-middle).

Однак їхня робота також виявила потенційні шляхи пом’якшення цього явища. Стратегічне використання позиційного кодування, яке посилює зв’язки між сусідніми словами, може зменшити позиційну упередженість. Спрощення моделей за рахунок зменшення кількості шарів уваги або вивчення альтернативних стратегій маскування також може допомогти. Хоча архітектура моделі відіграє важливу роль, важливо пам’ятати, що упередженість у навчальних даних може посилювати проблему.

Це дослідження дає глибше розуміння того, як працюють сучасні АІ-системи, які дедалі частіше використовуються в таких критичних сферах, як юриспруденція, медична діагностика та програмування.

Як наголосив Алі Джадбабаї (Ali Jadbabaie), професор і завідувач кафедри цивільної та екологічної інженерії МІТ, ці моделі – справжні “чорні скриньки”. Більшість користувачів не усвідомлюють, що порядок вхідних даних може вплинути на точність результату. Щоб довіряти ШІ у важливих завданнях, потрібно розуміти, коли й чому він помиляється.

Новини

Прихована упередженість у мовних моделях