29 Января, 2025

От текста к 3D: магия модели Edify 3D от NVIDIA

Спрос на высококачественные 3D-ресурсы стремительно растет в таких сферах, как разработка видеоигр, расширенная реальность (XR), кинопроизводство и симуляции. Однако создание готового к использованию 3D-контента обычно требует сложного и продолжительного процесса, требующего высокого уровня навыков и специальных инструментов. Решить эти задачи помогает модель Edify 3D от NVIDIA – решение, использующее технологии искусственного интеллекта, чтобы сделать процесс генерации 3D-ресурсов быстрее, проще и доступнее.

Edify 3D устанавливает новые стандарты в генерации 3D-объектов, позволяя создавать высококачественные ресурсы менее чем за две минуты. Эта инновационная платформа генерирует 3D-модели с детальной геометрией, четкими топологиями сетки, UV-маппированием, текстурами с разрешением 4K и материалами для физического рендеринга (PBR). Независимо от того, являются ли входными данными текстовое описание или референсное изображение, Edify 3D способна создавать удивительно точные 3D-ресурсы, пригодные для широкого спектра применений.

По сравнению с традиционными подходами к генерации текста в 3D, Edify 3D обеспечивает не только лучшие результаты с точки зрения детализации и реалистичности, но и превосходит по показателям эффективности и масштабируемости.

Основная технология Edify 3D использует передовые нейронные сети, сочетая модели диффузии и трансформаторы для расширения возможностей искусственного интеллекта в создании 3D-объектов. Процесс начинается с многоракурсных моделей диффузии, которые синтезируют RGB-изображения объекта и нормали поверхности объекта с разных точек обзора. Эти многоугловые изображения становятся основой для реконструкции формы, текстуры и материалов объекта с помощью трансформерной модели.

Такая система оптимизирована для масштабирования и может обрабатывать как текстовые промпты, так и референсные изображениями. Для генерации текста в 3D пользователи вводят текстовое описание на естественном языке, и модель синтезирует объект на основе заданных подсказок и поз. Для преобразования изображения в 3D система автоматически выделяет объект из референсного изображения и генерирует его трехмерную копию с детализацией даже невидимых частей.

Для достижения столь впечатляющих результатов Edify 3D полагается на тщательно разработанный процесс обработки данных. Система начинает с конвертации необработанных 3D-форм в единый формат, обеспечивая совместимость и согласованность данных. Данные, не ориентированные на объект, неполное сканирование и некачественные формы отфильтровываются благодаря активному обучению с помощью классификаторов искусственного интеллекта и человеческого контроля. Выравнивание объектов в канонической позе гарантирует правильную ориентацию всех фигур, снижая неоднозначность во время обучения модели.

Для обучения Edify 3D использует фотореалистичные методы рендеринга, чтобы генерировать многоракурсные изображения из обработанных 3D-фигур. Затем модель визуально-языкового типа (VLM) генерирует подписи для изображений, обогащая набор данных содержательными метаданными.

Для преобразования текста в трехмерную модель Edify 3D создает детальные 3D-модели, которые полностью соответствуют введенным описаниям. В сценариях изображение-в-3D система точно воспроизводит структуру референсного объекта, одновременно генерируя реалистичные текстуры для невидимых поверхностей, таких как задняя часть объекта.

Конечные результаты Edify 3D поражают своим качеством. Сгенерированные ресурсы включают чистые топологии сетки в формате quad, детализированные текстуры и четкую геометрию. Эти особенности делают их идеальными для дальнейшего редактирования в таких сферах, как игровой дизайн, анимация и промышленный дизайн.

Более подробно о генерации масштабируемых высококачественных 3D-ресурсов читайте в статье на сайте arXiv.

Новости

От текста к 3D: магия модели Edify 3D от NVIDIA