SAFE: эффективный фактчекинг для больших языковых моделей
По мере совершенствования функциональности языковых моделей они играют все более важную роль в генерации текста в различных областях. Однако обеспечение точности информации, которую они создают, остается сложной задачей. Ложная информация, непреднамеренные ошибки и контент, выражающий предвзятое отношение, могут быстро распространяться, влияя на процессы принятия решений, публичный дискурс и доверие пользователей.
Исследовательское подразделение DeepMind компании Google представило мощный инструмент проверки фактов на основе искусственного интеллекта разработанный специально для больших языковых моделей (LLMs). Метод, получивший название SAFE (Semantic Accuracy and Fact Evaluation), направлен на повышение надежности и достоверности контента, сгенерированного искусственным интеллектом.
SAFE работает на основе комплексного подхода, используя передовые методы ИИ для тщательного анализа и проверки фактических утверждений. Детальный анализ системы позволяет разбивать информацию, полученную из длинных текстов, сгенерированных LLMs, на отдельные автономные блоки. Каждый из этих блоков проходит строгую проверку, причем SAFE использует результаты поиска Google для проведения всестороннего сопоставления фактов. Что отличает SAFE от других, так это использование многоэтапного мышления, в том числе генерацию поисковых запросов и последующий анализ результатов поиска для определения достоверности фактов.
В ходе комплексного тестирования исследовательская группа использовала метод SAFE для проверки примерно 16 000 фактов, содержащихся в ответах, предоставленных несколькими LLMs. Они сравнили свои результаты с результатами фактчекинга людьми (краудсорсинг) и обнаружили, что результаты SAFE совпадают с выводами специалистов в 72% случаев. Примечательно, что в тех случаях, когда возникали разногласия, SAFE превосходил точность человека, достигая поразительного показателя точности в 76%.
Преимущества SAFE не ограничиваются исключительной точностью. Его использование оценивается примерно в 20 раз рентабельнее, чем полагаться на людей, проверяющих факты. Это делает предложенный инструмент фактологии финансово жизнеспособным решением для обработки огромных объемов контента, созданного моделями LLM. Кроме того, масштабируемость SAFE делает его отличным выбором для решения проблем, связанных с экспоненциальным ростом объемов информации в цифровую эпоху.
Хотя разработанный метод SAFE является значительным шагом вперед для дальнейшего развития и применения языковых моделей, определенные вызовы все еще остаются. Обеспечение того, чтобы инструмент учитывал всю новую информацию и поддерживал баланс между точностью и эффективностью, является постоянными задачами.
DeepMind обнародовал код SAFE и выложил набор данных для бенчмарка в открытый доступ на GitHub. Исследователи, разработчики и организации могут воспользоваться его возможностями для повышения надежности контента, созданного искусственным интеллектом.
Узнайте больше про модели LLM и исследуйте эффективные методы решения проблем обработки текста с помощью больших языковых моделей, llama.cpp и библиотеки guidance в нашей статье "Секреты обработки и оптимизации текста с помощью больших языковых моделей."