Новини

Свіжі новини та корисні статті про штучний інтелект і машинне навчання

Нове покоління роботів навчається, планує та діє

Компанія Google DeepMind створила Gemini Robotics – пару моделей штучного інтелекту, розроблених для надання роботам здібностей до логічного мислення та виконання дій. Ці системи, побудовані на базі моделей Gemini, поєднують зорове сприйняття, мову та моторний контроль, що дозволяє виконувати багатокрокові завдання загального призначення.

Gemini Robotics складається з двох взаємодоповнюючих моделей:

  • Gemini Robotics-ER 1.5 (Embodied Reasoning, ER) – візуально-мовна модель (vision-language model, VLM), оптимізована для планування та міркування у фізичних середовищах. Вона інтерпретує візуальні та текстові дані, формує багатоетапні плани завдань і може безпосередньо використовувати цифрові інструменти на кшталт Google Search чи сторонні API для збору додаткової інформації. Модель ER діє як планувальник високого рівня, генеруючи інструкції природною мовою для виконання складних послідовностей дій.
  • Gemini Robotics 1.5 (Vision-Language-Action, VLA) – візуально-мовно-дієва модель, яка перетворює інструкції від ER-моделі у точні моторні команди. На відміну від традиційних моделей VLA, вона включає внутрішній цикл міркувань, що дозволяє роботу “думати” про кожен крок, сегментувати складні завдання та коригувати дії на основі зворотного зв’язку з навколишнім середовищем.

Поєднання моделей дозволяє реалізувати багаторівневе логічне мислення. Наприклад, при сортуванні предметів у різні контейнери відповідно до місцевих правил переробки, модель ER створює план дій: пошук відповідної інформації, класифікація об’єктів та визначення послідовності кроків. Після цього Gemini Robotics 1.5 виконує завдання: аналізує кожен рух, коригує захват та траєкторію, а також надає прозорий звіт про прогрес.

Ключовою інновацією є навчання на основі перехресного втілення. Стратегії руху, засвоєні одним роботом, наприклад дворуким роботом Aloha 2, можуть бути перенесені на інші платформи, включаючи гуманоїдних роботів, таких як Apollo, або дворукого Franka, без додаткового перенавчання. Ця здатність прискорює розробку, дозволяючи новим роботам успадковувати попередні знання та узагальнювати навички для виконання нових завдань.

Gemini Robotics-ER 1.5 демонструє найвищі результати у 15 академічних тестах на втілене міркування (embodied reasoning), включаючи Embodied Reasoning Question Answering (ERQA), Point-Bench, RefSpatial, RoboSpatial-VQA та Where2Place. Високі показники охоплюють визначення напрямків, розпізнавання зображень та відео, прогнозування траєкторій і оцінку прогресу завдань, що підтверджує передові можливості просторового міркування.

Компанія DeepMind інтегрувала семантичні та фізичні механізми безпеки в обидві моделі. Високорівневе міркування враховує безпеку завдання перед його виконанням, а вбудована система запобігання зіткненням забезпечує безпеку експлуатації. Оновлений бенчмарк ASIMOV забезпечує покращене покриття, анотації та відеоматеріали для оцінки семантичної безпеки, підтверджуючи здатність моделей враховувати як навколишнє середовище, так і людські фактори.

Поєднуючи логічне мислення, планування, використання інструментів та узагальнення дій, Gemini Robotics дозволяє роботам самостійно виконувати складні багатоетапні завдання. Модель Gemini Robotics-ER 1.5 вже доступна для розробників через Google AI Studio, а Gemini Robotics 1.5 наразі доступна лише для обраних партнерів. Такі технології відкривають шлях до нових досліджень та практичного впровадження інтелектуальних роботизованих агентів.