30 Июня, 2025

Скрытая предвзятость в языковых моделях

Большие языковые модели (LLMs), такие как GPT-4 и Claude, кардинально изменили мир искусственного интеллекта благодаря своей способности обрабатывать и генерировать текст, близкий по стилю к человеческой речи. Однако за их впечатляющими возможностями скрывается сложная проблема, которую часто не замечают: позиционное предубеждение (position bias). Речь идет о склонности этих моделей уделять больше внимания словам в начале и в конце документа, пренебрегая содержанием в середине. Это может иметь серьезные последствия, потенциально приводя к неточным или неполным ответам ИИ-систем.

Команда исследователей из Массачусетского технологического института (MIT) определила основную причину этого недостатка. Их исследование показывает, что позиционная предвзятость возникает не только из-за обучающих данных для LLM, но и из-за фундаментальных решений в самой архитектуре модели – в частности, как трансформеры обрабатывают связи между словами и распределяют внимание.

Трансформеры – архитектура нейронных сетей, лежащая в основе большинства LLMs. Они работают, превращая предложения в токены и изучая связи между ними. Чтобы обрабатывать длинные тексты, модель использует механизм внимания (attention mechanisms), позволяющий каждому токену “сосредоточиться” на других, связанных с ним токенах, что помогает улавливать контекст.

Однако из-за огромных вычислительных затрат, связанных с тем, что каждый токен должен учитывать все другие токены, разработчики часто используют причинную маскировку (causal masks). Эти ограничения позволяют токену учитывать только предыдущие токены в последовательности. К моделям также добавляют позиционное кодирование, которое помогает определить порядок слов в предложении.

Команда MIT создала теоретическую графовую модель, чтобы исследовать, как эти архитектурные решения влияют на распределение внимания в модели. Анализ показал: маскировка причинности естественно сдвигает фокус модели к началу текста, независимо от важности содержания. Более того, чем больше слоев внимания добавляется – стандартная практика повышения производительности модели – тем сильнее становится предвзятость.

Это открытие отражает реальные сложности, с которыми сталкиваются разработчики, работающие над прикладными системами ИИ. Узнайте больше об опыте QuData в создании более умной системы генерации с дополненной выборкой (RAG) с использованием графовых баз данных. Наш кейс рассматривает некоторые ограничения архитектуры моделей и демонстрирует, как на практике сохранить структурированные взаимосвязи и контекстную релевантность.

По словам Синьи Ву (Xinyi Wu), аспирантки MIT и ведущего автора исследования, их фреймворк помог показать, что даже если сами данные являются нейтральными, архитектура модели может влиять на то, куда направляется фокус внимания ИИ.

Чтобы проверить свою теорию, исследователи провели эксперименты, размещая правильные ответы в разных частях текста. Они обнаружили четкую U-образную закономерность: модели работали лучше всего, когда ответ был в начале текста, несколько хуже – в конце, и хуже всего – в середине. Это явление они назвали “утерянное в середине” (lost-in-the-middle).

Однако их работа также выявила и возможные способы смягчения этого явления. Стратегическое использование позиционного кодирования, которое усиливает связи между соседними словами, может уменьшить позиционную предвзятость. Упрощение моделей за счет уменьшения количества слоев внимания или изучения альтернативных стратегий маскировки также может помочь. Хотя архитектура модели играет важную роль, важно помнить, что предвзятость в учебных данных может усугублять проблему.

Это исследование дает более глубокое понимание того, как работают современные ИИ-системы, которые все чаще используются в таких критических сферах, как юриспруденция, медицинская диагностика и программирование.

Как отметил Али Джадбабаи (Ali Jadbabaie), профессор и заведующий кафедрой гражданской и экологической инженерии МIТ, эти модели – настоящие “черные ящики”. Большинство пользователей не осознают, что порядок входных данных может повлиять на точность результата. Чтобы доверять ИИ в важных задачах, нужно понимать, когда и почему он ошибается.

Новости

Скрытая предвзятость в языковых моделях