Тест Тьюринга больше не работает?
Тест Тьюринга был разработан ученым Аланом Тьюрингом и предполагает проведение эксперимента, в котором участник будет взаимодействовать одновременно с компьютером и живым человеком. На основании полученных ответов на свои вопросы участник должен определить, с кем он общается: с человеком или машиной. Если человек не смог их различить, это означает, что машина успешно "прошла" испытание.
Однако этот тест, когда-то считавшийся новаторским, теперь имеет свои ограничения. Он прежде всего сосредоточен на имитации человеческих реакций, а не на настоящих человеческих рассуждениях. Многие модели искусственного интеллекта превосходно имитируют стиль ведения разговоров, но им часто не хватает глубоких умственных способностей. Это не требует от ИИ самосознания или понимания собственных рассуждений. Даже сам Тьюринг признал, что этот тест не может точно определить, могут ли машины мыслить; это больше касается подражания, чем познания.
Ранее мы рассматривали вопрос прохождения GPT-4 теста Тьюринга и результаты, полученные во время эксперимента. Подробнее ознакомится с исследованием можно здесь.
Чтобы устранить вышеупомянутые ограничения теста Тьюринга, Филип Н. Джонсон-Лейрд (Philip N. Johnson-Laird) из Принстонского университета и Марко Раньи (Marco Ragni) из Технического университета Хемница разработали альтернативу известному тесту. Они предлагают сместить фокус внимания с того, может ли машина имитировать человеческие реакции, на более фундаментальный вопрос: "Рассуждает ли ИИ так же, как человек?"
В опубликованной статье они описывают новую систему оценки, цель которой – определить, действительно ли ИИ рассуждает, как человек. Эта система состоит из трех важных этапов.
1. Испытание программы в серии психологических экспериментов по рассуждению.
Первый шаг предполагает проведение серии психологических экспериментов среди моделей ИИ, призванных отличить человеческое мышление от стандартных логических процессов. Эти эксперименты углубляются в различные аспекты рассуждений, исследуя нюансы, которые отклоняются от стандартных логических рамок.
Если суждения машины отличаются от суждений человека, мы ответили на предыдущий вопрос. Компьютер рассуждает иначе, чем люди. Однако, если его суждения в значительной степени совпадают с человеческими рассуждениями, мы переходим ко второму шагу.
2. Проверка понимания программой собственного процесса рассуждений.
Этот шаг направлен на оценку понимания ИИ собственных процессов рассуждения, что является критически важным аспектом человеческого познания. В идеале машина должна быть способна анализировать свое мышление и давать объяснения своим решениям, что похоже на самоанализ, свойственный для людей.
Если программа проходит этот тест, третий шаг является аналитическим.
3. Изучение исходного кода программы.
Последний шаг включает в себя изучение исходного кода программы. Если он содержит те же самые фундаментальные компоненты, которые моделируют человеческую деятельность, в частности интуитивную систему для быстрых выводов, делиберативную систему для более вдумчивых рассуждений и систему для интерпретации терминов на основе контекста и общих знаний, то это является решающим доказательством. Если исходный код программы отражает эти принципы, считается, что модель ИИ мыслит как человек.
Рассматривая ИИ как участника когнитивных экспериментов, этот инновационный подход означает изменение парадигмы в оценке искусственного интеллекта. Подвергая анализу компьютерный код, ученые предлагают пересмотреть стандарты оценки ИИ. Поскольку мир стремится создать более совершенную модель искусственного интеллекта, эта новая концепция может стать значительным шагом вперед в нашем понимании того, как думают машины.