25 Червня, 2026

SpatialClaw – новий підхід NVIDIA до просторового мислення ШІ

NVIDIA Research представили SpatialClaw – новий фреймворк без додаткового навчання, який суттєво покращує здатність ШІ-агентів виконувати завдання просторового мислення у тривимірних та динамічних середовищах. На відміну від традиційних підходів, які покладаються на жорстко структуровані виклики інструментів або одноразову генерацію коду, SpatialClaw дозволяє агентам на базі візуально-мовних моделей (vision-language model, VLM) використовувати виконуваний код Python як основний інтерфейс взаємодії у постійному середовищі зі збереженням стану. Така архітектура забезпечує гнучке, ітеративне та адаптивне міркування щодо складних візуальних сцен.

Просторове мислення – розуміння розташування об’єктів, їхніх взаємозв’язків, глибини, руху та взаємодії у 3D/4D-середовищах – залишається одним із найскладніших викликів для сучасних VLMs. Хоча такі моделі демонструють високі результати в обробці природної мови та базовій інтерпретації зображень, вони часто мають труднощі з точним геометричним аналізом, багатокроковими логічними висновками та завданнями, які пов’язані із динамічними сценами або кількома точками огляду. Наявні агентні підходи доповнюють VLM спеціалізованими інструментами сприйняття, такими як сегментація об’єктів або оцінка глибини, проте їхній потенціал часто обмежується жорсткими інтерфейсами дій, які стримують розвиток процесів міркування під час виконання завдань.

SpatialClaw вирішує ці обмеження завдяки використанню постійного Python-ядра, попередньо завантаженого вхідними кадрами, модулями сприйняття та геометричними примітивами з бібліотек на кшталт NumPy і SciPy. Замість вибору із заздалегідь визначених команд або необхідності одразу створювати повноцінну програму, агент пише та виконує код покроково. Це дозволяє йому:

розглядати результати роботи модулів сприйняття як звичайні, багаторазові змінні Python;
аналізувати проміжні результати виконання;
коригувати власну стратегію на основі отриманого зворотного зв’язку;
створювати складні геометричні обчислення, адаптовані до конкретного завдання та сформовані безпосередньо в процесі міркування.

Такий інтерактивний робочий процес підтримує відкритий аналіз, що значно виходить за межі можливостей фіксованих API або одноразових скриптів. Система також містить механізми безпеки та працює в багатоетапному циклі планування, виконання й спостереження.

Під час тестування на комплексному наборі з 20 бенчмарків просторового мислення, які охоплюють статичні зображення, багаторакурсні сцени, загальні просторові завдання, відео та динамічні 4D-сценарії, SpatialClaw досяг середньої точності 59,9%. Це на 11,2 пунктів перевищує результат одного з найкращих сучасних просторових агентів – SpaceTools-Toolshed – при використанні тієї ж базової моделі Gemma 4-31B. Підвищення продуктивності спостерігалося для шести різних VLMs з сімейств Qwen і Gemma з кількістю параметрів від 26 до 397 мільярдів без будь-якого додаткового навчання або спеціального налаштування під конкретні бенчмарки.

Одним із ключових висновків дослідження є те, що приріст продуктивності зумовлений насамперед самим інтерфейсом дій, а не спеціалізованими інструментами сприйняття. Експерименти показали, що навіть після видалення допоміжних обгорток утиліт фреймворк зберігав високу ефективність. Дослідники дійшли висновку, що можливість створювати, перевіряти та коригувати логіку міркування за допомогою коду є одним із головних чинників успіху SpatialClaw.

Архітектура фреймворку також демонструє ширшу тенденцію в розвитку AI-агентів. Замість того щоб зосереджуватися виключно на розширенні набору інструментів агента, SpatialClaw робить акцент на створенні більш виразного робочого середовища, у якому процес міркування може динамічно розвиватися. Це дозволяє агентам адаптуватися до складних просторових завдань, які потребують кількох етапів аналізу та ухвалення рішень.

Поява SpatialClaw відбувається на тлі зростаючого інтересу індустрії до агентного штучного інтелекту та систем фізичного ШІ, здатних розуміти реальний світ і взаємодіяти з ним. Оскільки AI дедалі активніше впроваджується в робототехніку, автономні системи та симуляційні середовища, надійне просторове мислення стає критично важливою характеристикою. Останні дослідження NVIDIA свідчать про те, що надання ШІ-агентам свободи міркувати за допомогою коду може стати перспективним шляхом до створення більш потужного та адаптивного просторового інтелекту.

Повна інформація про проєкт, включно з вихідним кодом, детальними траєкторіями міркування, презентацією та науковою статтею, доступна на сайті SpatialClaw та GitHub.