29 Січня, 2025

Від тексту до 3D: магія моделі Edify 3D від NVIDIA

Попит на високоякісні 3D-ресурси стрімко зростає в таких сферах, як розробка відеоігор, розширена реальність (XR), кіновиробництво та симуляції. Проте створення готового до використання 3D-контенту зазвичай вимагає складного й тривалого процесу, що потребує високого рівня навичок і спеціальних інструментів. Вирішити ці завдання допомагає модель Edify 3D від NVIDIA – рішення, яке використовує технології штучного інтелекту, щоб зробити процес генерації 3D-ресурсів швидшим, простішим і доступнішим.

Edify 3D встановлює нові стандарти в генерації 3D-об'єктів, дозволяючи створювати високоякісні ресурси менш ніж за дві хвилини. Ця інноваційна платформа генерує 3D-моделі з детальною геометрією, чіткими топологіями сітки, UV-мапуванням, текстурами з роздільною здатністю 4K і матеріалами для фізичного рендерингу (PBR). Незалежно від того, чи є вхідними даними текстовий опис або референсне зображення, Edify 3D здатна створювати напрочуд точні 3D-ресурси, придатні для широкого спектру застосувань.

У порівнянні з традиційними підходами до генерації тексту в 3D, Edify 3D забезпечує не тільки кращі результати з точки зору деталізації та реалістичності, але й перевершує за показниками ефективності та масштабованості.

Основна технологія Edify 3D використовує передові нейронні мережі, поєднуючи моделі дифузії та трансформатори, щоб розширити можливості штучного інтелекту у створенні 3D-об'єктів. Процес починається з багаторакурсних моделей дифузії, які синтезують RGB-зображення об'єкта та нормалі поверхні об'єкта з різних точок огляду. Ці багатокутові зображення стають основою для реконструкції форми, текстури та матеріалів об'єкта за допомогою трансформерної моделі.

Така система оптимізована для масштабування і може обробляти як текстові промпти, так і референсні зображеннями. Для генерації тексту в 3D користувачі вводять текстовий опис природною мовою, і модель синтезує об'єкт на основі заданих підказок і поз. Для перетворення зображення у 3D система автоматично виділяє об'єкт із референсного зображення та генерує його тривимірну копію з деталізацією навіть невидимих частин.

Для досягнення таких вражаючих результатів Edify 3D покладається на ретельно розроблений процес обробки даних. Система починає з конвертації необроблених 3D-форм у єдиний формат, забезпечуючи сумісність і узгодженість даних. Дані, не орієнтовані на об'єкт, неповне сканування та неякісні форми відфільтровуються завдяки активному навчанню за допомогою класифікаторів штучного інтелекту та людського контролю. Вирівнювання об'єктів у канонічній позі гарантує правильну орієнтацію всіх фігур, знижуючи неоднозначність під час навчання моделі.

Для навчання Edify 3D використовує фотореалістичні методи рендерингу, щоб генерувати багаторакурсні зображення з оброблених 3D-фігур. Потім модель візуально-мовного типу (VLM) генерує підписи для зображень, збагачуючи набір даних змістовними метаданими.

Для перетворення тексту в тривимірну модель Edify 3D створює детальні 3D-моделі, які повністю відповідають введеним описам. У сценаріях зображення-у-3D система точно відтворює структуру референсного об'єкта, одночасно генеруючи реалістичні текстури для невидимих поверхонь, таких як задня частина об'єкта.

Кінцеві результати Edify 3D вражають своєю якістю. Згенеровані ресурси включають чисті топології сітки у форматі quad, деталізовані текстури й чітку геометрію. Ці особливості роблять їх ідеальними для подальшого редагування у таких сферах, як ігровий дизайн, анімація й промисловий дизайн.

Докладніше про генерацію масштабованих високоякісних 3D-ресурсів читайте в статті на сайті arXiv.

Новини

Від тексту до 3D: магія моделі Edify 3D від NVIDIA