От слов к реальности за считанные минуты

MIT разрабатывает систему Speech-to-Reality для изготовления физических объектов с помощью голосовых команд

От слов к реальности за считанные минуты

Граница между научной фантастикой и реальностью становится все более размытой благодаря исследователям из Массачусетского технологического института (MIT), которые разработали систему, способную за считанные минуты превращать голосовые команды в физические объекты. Платформа “Speech-to-Reality” использует обработку естественного языка, генеративный ИИ для 3D-моделирования, геометрический анализ и роботизированную сборку. Платформа позволяет изготавливать мебель, функциональные и декоративные предметы на заказ, без необходимости в навыках 3D-моделирования или робототехники.

Рабочий процесс системы начинается с распознавания речи, пряеобразуя голосовые команды пользователя в текст. Большая языковая модель (LLM) интерпретирует текст, чтобы идентифицировать желаемый физический объект, фильтруя абстрактные или невыполнимые команды. Обработанный запрос служит входными данными для генеративной 3D-модели, которая создает полигональную сетку изображение объекта (mesh model).

Поскольку 3D-модели, сгенерированные ИИ, не всегда пригодны для непосредственной сборки, система применяет алгоритм дискретизации компонентов, который преобразует сетку в набор модульных кубооктаэдрических элементов. Каждый модуль имеет размер 10 см и соединяется с помощью магнитных фиксаторов, обеспечивая многократную, безинструментальную сборку. Далее геометрические алгоритмы проверяют возможность сборки с учетом ограничений: доступности элементов, наличия неподдерживаемых выступов, устойчивости вертикальных сегментов и соединения конструкции. Дополнительно применяется направленное перемасштабирование и последовательность с учетом связности, что обеспечивает структурную целостность и предотвращает столкновения во время роботизированной сборки.

Модуль автоматического планирования траекторий, построенный на библиотеке Python-URX, генерирует команды движения для шестиосного робота-манипулятора UR10, оснащенного специальным захватом. Пассивные центрирующие элементы захвата обеспечивают точное размещение даже при незначительном износе компонентов. Сборка происходит послойно, в порядке, который обеспечивает постоянную опору и стабильность конструкции. Конвейерная система возвращает использованные модули в цикл для последующих сборок, что поддерживает устойчивое и циклическое производство.

Платформа успешно продемонстрировала быструю сборку различных объектов: табуреты, столы, полки и декоративные предметы, такие как буквы или фигурки животных. Благодаря алгоритмам, учитывающим геометрические ограничения, система способна выполнять сложные конструкции с большими выступами, высокими вертикальными секциями или разветвленной геометрией. Точная калибровка скорости и ускорения роботизированной руки дополнительно повышает надежность сборки и предотвращает структурные сдвиги.

Несмотря на использование 10-сантиметровых модулей, система является полностью масштабируемой и может работать с меньшими элементами. Также возможна интеграция с гибридными методами производства. Будущие итерации могут включать управление жестами, дополненную реальность для предварительного просмотра и уточнения конструкций, а также полностью автоматизированный демонтаж и модификацию уже созданных объектов.

Платформа Speech-to-Reality формирует технический фундамент для интеграции генеративного дизайна на основе искусственного интеллекта с физической роботизированной сборкой. Сочетание технологий понимания речи, 3D-ИИ, дискретной модульной сборки и роботизированного управления создает условия для быстрого, масштабируемого и устойчивого производства физических предметов, открывая новый уровень созидания между человеком и ИИ в реальных условиях.