25 Июня, 2026

SpatialClaw – новый подход NVIDIA к пространственному мышлению ИИ

NVIDIA Research представили SpatialClaw – новый фреймворк, не требующий дополнительного обучения, который существенно улучшает способность ИИ-агентов выполнять задачи пространственного мышления в трехмерных и динамичных средах. В отличие от традиционных подходов, основанных на жестко структурированных вызовах инструментов или однократной генерации кода, SpatialClaw позволяет агентам на базе визуально-языковых моделей (vision-language model, VLM) использовать исполняемый код Python в качестве основного интерфейса взаимодействия в постоянной среде с сохранением состояния. Такая архитектура обеспечивает гибкое, итеративное и адаптивное рассуждение о сложных визуальных сценах.

Пространственное мышление – понимание расположения объектов, их взаимосвязей, глубины, движения и взаимодействия в 3D/4D-средах – остается одной из самых сложных задач для современных VLMs. Хотя такие модели демонстрируют высокие результаты в обработке естественного языка и базовой интерпретации изображений, они часто испытывают трудности с точным геометрическим анализом, многошаговыми логическими выводами и задачами, связанными с динамическими сценами или несколькими точками обзора. Существующие агентные подходы дополняют VLM специализированными инструментами восприятия, такими как сегментация объектов или оценка глубины, однако их потенциал часто ограничивается жесткими интерфейсами действий, которые сдерживают развитие процессов размышления во время выполнения задач.

SpatialClaw устраняет эти ограничения благодаря использованию постоянного Python-ядра, предварительно загруженного входными кадрами, модулями восприятия и геометрическими примитивами из библиотек, таких как NumPy и SciPy. Вместо выбора из заранее определенных команд или необходимости сразу создавать полноценную программу, агент пишет и выполняет код пошагово. Это позволяет ему:

рассматривать результаты работы модулей восприятия как обычные многократно используемые переменные Python;
анализировать промежуточные результаты выполнения;
корректировать собственную стратегию на основе полученной обратной связи;
создавать сложные геометрические вычисления, адаптированные под конкретную задачу и формирующиеся непосредственно в процессе рассуждения.

Такой интерактивный рабочий процесс поддерживает открытый анализ, значительно выходящий за пределы возможностей фиксированных API или одноразовых скриптов. Система также содержит механизмы безопасности и работает в многоэтапном цикле планирования, выполнения и наблюдения.

Во время тестирования на комплексном наборе из 20 бенчмарков пространственного мышления, охватывающих статические изображения, многоракурсные сцены, общие пространственные задачи, видео и динамические 4D-сценарии, SpatialClaw достиг средней точности 59,9%. Это на 11,2 пункта превышает результат одного из лучших современных пространственных агентов – SpaceTools-Toolshed – при использовании той же базовой модели Gemma 4-31B. Повышение производительности наблюдалось для шести различных VLMs из семейств Qwen и Gemma с количеством параметров от 26 до 397 миллиардов без какого-либо дополнительного обучения или специальной настройки под конкретные бенчмарки.

Одним из ключевых выводов исследования стало то, что прирост производительности обусловлен прежде всего самим интерфейсом действий, а не специализированными инструментами восприятия. Эксперименты показали, что даже после удаления вспомогательных программных оберток фреймворк сохранял высокую эффективность. Исследователи пришли к выводу, что возможность создавать, проверять и корректировать логику рассуждений с помощью кода является одним из главных факторов успеха SpatialClaw.

Архитектура фреймворка также демонстрирует более широкую тенденцию в развитии AI-агентов. Вместо того чтобы сосредотачиваться исключительно на расширении набора инструментов агента, SpatialClaw делает акцент на создании более выраженной рабочей среды, в которой процесс рассуждения может динамически развиваться. Это позволяет агентам адаптироваться к сложным пространственным задачам, требующим нескольких этапов анализа и принятия решений.

Появление SpatialClaw происходит на фоне растущего интереса индустрии к агентному искусственному интеллекту и системам физического ИИ, способным понимать реальный мир и взаимодействовать с ним. Поскольку ИИ все активнее внедряется в робототехнику, автономные системы и симуляционные среды, надежное пространственное мышление становится критически важной характеристикой. Последние исследования NVIDIA свидетельствуют о том, что предоставление ИИ-агентам свободы рассуждать с помощью кода может стать перспективным путем к созданию более мощного и адаптивного пространственного интеллекта.

Полная информация о проекте, включая исходный код, подробные траектории рассуждений, презентацию и научную статью, доступна на сайте SpatialClaw и GitHub.