Искусственный интеллект научили управлять компьютером
Компания Anthropic представила существенное обновление своей линейки искусственных интеллектов – модель Claude 3.5 Sonnet, которая имеет беспрецедентную способность управлять компьютером, подобно человеку. Новая функция под названием «использование компьютера» пока доступна в публичной бета-версии, что позволяет разработчикам направлять Claude на взаимодействие с десктопом, нажатие кнопок и даже ввод текста, анализируя скриншоты и воспроизводя действия пользователя.
В отличие от других технологических гигантов, таких как Microsoft и OpenAI, которые демонстрировали подобные функциональные возможности, но ограничивали свои инструменты лишь просмотром экранов без полного операционного контроля, Anthropic сделали смелый шаг. Claude 3.5 теперь может полноценно взаимодействовать с приложениями и автоматизировать рабочие процессы, что позволяет перейти от проведения лишь исследований к выполнению рутинных задач.
Идея, что искусственный интеллект может непосредственно работать на компьютере, не является абсолютно новой. Компании, специализирующиеся на роботизированной автоматизации процессов (RPA), предлагают подобные инструменты уже много лет. Однако подход Anthropic интегрирует ИИ с уровнем универсальности и гибкости в использовании, которого RPA обычно не хватает. Вместо применения заранее настроенных скриптов автоматизации, функция «использование компьютера» в Claude 3.5 предоставляет разработчикам возможность управлять ИИ с помощью естественного языка, поручая ему выполнять повторяющиеся задачи, проводить исследования и даже выполнять более сложные операции.
Anthropic интегрировали эту функцию через API, что позволяет пользователям, например, попросить Claude собрать данные из разных источников и заполнить форму или объединить информацию из нескольких приложений. Модель «видит» экран через серию скриншотов, которые она соединяет, чтобы сформировать целостное представление о рабочем столе. Далее, на основе предоставленных инструкций, она симулирует такие действия, как перемещение курсора, нажатие кнопок или ввод текста.
Несмотря на обнадеживающие результаты, функция остается экспериментальной. Зависимость Claude от серии неподвижных изображений вместо потокового видео в реальном времени может затруднять быстрые действия, такие как реагирование на оповещения. В Anthropic предупреждают, что реализация некоторых задач, таких как перетаскивание и масштабирование, все еще сталкивается с препятствиями, но планируется постоянно совершенствовать функции на основе отзывов от первых пользователей.
Claude 3.5 Sonnet продемонстрировал впечатляющие результаты во время тестов производительности (бенчмарк), в частности в задачах, требующих кодирования и использования специализированных инструментов. Модель набрала значительно более высокие баллы на тесте SWE-bench Verified, повысив свою эффективность до 49%, что превышает показатели ведущих общедоступных ИИ-моделей. На TAU-bench, оценивающем способность ИИ справляться с реальными задачами в таких секторах, как розничная торговля и авиапутешествия, точность Claude также значительно выросла.
Безопасность и этические соображения являются приоритетом для Anthropic при выпуске этой технологии. В ответ на беспокойство о возможных злоупотреблениях, таких как распространение дезинформации или вмешательство в выборы, Anthropic разработали Claude с ограничением взаимодействия с социальными сетями, правительственными сайтами и доменами, связанными с конфиденциальными данными. Выявляются специальные запросы, которые могут привести к рисковым действиям, а сам Claude запрограммирован избегать высокорисковых операций, если это не предусмотрено инструкциями пользователя.
Кроме того, модель оснащена классификаторами, отслеживающими ее действия, в частности посты в социальных сетях или регистрацию доменов. Для дальнейшей отчетности Anthropic сохраняет скриншоты с сессий Claude в течение не менее 30 дней, обеспечивая запись действий, которая может быть просмотрена при необходимости.
Компания Anthropic признает, что это только начало. Текущая версия Claude 3.5 Sonnet служит испытательной площадкой, а отзывы пользователей помогут компании улучшить производительность и протоколы безопасности модели. Хотя способность Claude воспроизводить человеческое взаимодействие с десктопом открывает новые возможности, это также приносит новые вызовы. Anthropic тщательно контролирует применение модели, чтобы сохранить баланс между инновациями и ответственным использованием ИИ.
Для клиентов с ограниченным бюджетом Anthropic также готовится выпустить Claude 3.5 Haiku – более экономичную версию модели, которая будет обеспечивать аналогичную производительность, но с меньшей задержкой. Claude 3.5 Haiku сначала будет доступна как модель, работающая только с текстом, но впоследствии ее функционал расширится на поддержку мультимодальных приложений для работы с текстом и изображениями.