2 Октября, 2025

Новое поколение роботов учится, планирует и действует

Компания Google DeepMind создала Gemini Robotics – пару моделей искусственного интеллекта, разработанных для придания роботам способностей к логическому мышлению и выполнению действий. Эти системы, построенные на базе моделей Gemini, сочетают зрительное восприятие, речь и двигательный контроль, что позволяет выполнять многошаговые задачи общего назначения.

Gemini Robotics состоит из двух взаимодополняющих моделей:

Gemini Robotics-ER 1.5 (Embodied Reasoning, ER) – визуально-речевая модель (vision-language model, VLM), оптимизированная для планирования и рассуждений в физических средах. Она интерпретирует визуальные и текстовые данные, формирует многоэтапные планы задач и может напрямую использовать цифровые инструменты, такие как Google Search или сторонние API, для сбора дополнительной информации. Модель ER действует как планировщик высокого уровня, генерируя инструкции на естественном языке для выполнения сложных последовательностей действий.
Gemini Robotics 1.5 (Vision-Language-Action, VLA) – модель "зрение-речь-действие", которая преобразует инструкции от ER-модели в точные двигательные команды. В отличие от традиционных моделей VLA, она включает внутренний цикл рассуждений, что позволяет роботу "думать" о каждом шаге, сегментировать сложные задачи и корректировать действия на основе обратной связи с окружающей средой.

Сочетание моделей позволяет реализовать многоуровневое логическое мышление. Например, при сортировке предметов в разные контейнеры в соответствии с местными правилами переработки, модель ER создает план действий: поиск соответствующей информации, классификация объектов и определение последовательности шагов. После этого Gemini Robotics 1.5 выполняет задачу: анализирует каждое движение, корректирует захват и траекторию, а также предоставляет прозрачный отчет о прогрессе.

Ключевой инновацией является обучение на основе перекрестного воплощения. Стратегии движения, усвоенные одним роботом, например двуруким роботом Aloha 2, могут быть перенесены на другие платформы, включая гуманоидных роботов, таких как Apollo, или двурукого Franka, без дополнительного переобучения. Эта способность ускоряет разработку, позволяя новым роботам наследовать предыдущие знания и обобщать навыки для выполнения новых задач.

Gemini Robotics-ER 1.5 демонстрирует самые высокие результаты в 15 академических тестах на воплощенное мышление (embodied reasoning), включая Embodied Reasoning Question Answering (ERQA), Point-Bench, RefSpatial, RoboSpatial-VQA и Where2Place. Высокие показатели охватывают определение направлений, распознавание изображений и видео, прогнозирование траекторий и оценку прогресса задач, что подтверждает передовые возможности пространственного мышления.

Компания DeepMind интегрировала семантические и физические механизмы безопасности в обе модели. Высокоуровневое рассуждение учитывает безопасность задачи перед ее выполнением, а встроенная система предотвращения столкновений обеспечивает безопасность эксплуатации. Обновленный бенчмарк ASIMOV обеспечивает улучшенное покрытие, аннотации и видеоматериалы для оценки семантической безопасности, что подтверждает способность моделей учитывать как окружающую среду, так и человеческие факторы.

Сочетая логическое мышление, планирование, использование инструментов и обобщение действий, Gemini Robotics позволяет роботам самостоятельно выполнять сложные многоэтапные задачи. Модель Gemini Robotics-ER 1.5 уже доступна для разработчиков через Google AI Studio, а Gemini Robotics 1.5 пока доступна только для избранных партнеров. Такие технологии открывают путь к новым исследованиям и практическому внедрению интеллектуальных роботизированных агентов.

Новости

Новое поколение роботов учится, планирует и действует