Новости

Свежие новости и полезные статьи про искусственный интеллект и машинное обучение

Следите за каждым пикселем: оценка движения с OmniMotion

Исследования в области компьютерного зрения непрерывно расширяют горизонты возможностей для редактирования и создания видеоконтента, и одним из новых инновационных инструментов, представленных на Международной конференции по компьютерному зрению в Париже, является OmniMotion. Он описан в документе “Отслеживание всего, везде и сразу”. Этот инструмент, разработанный учеными из Корнелла, представляет собой мощное средство оптимизации, предназначенное для оценки движения в видеоматериалах. Он открывает потенциал для революционных изменений в редактировании видео и создании генеративного контента с использованием искусственного интеллекта.

Традиционно методы оценки движения следовали одному из двух основных подходов: отслеживание разреженных объектов и использование плотного оптического потока. Однако ни один из них не позволял полностью моделировать движение в видео на больших временных интервалах и вести учет движения всех пикселей в видеозаписи. Подходы, предпринятые для разрешения этой проблемы, часто ограничены по контексту во времени и пространстве, что приводит к накоплению ошибок на длинных траекториях и несоответствиям в оценках движения. В общем, разработка методов для отслеживания как плотных, так и дальних траекторий остается актуальной задачей в данной сфере, включая три основных аспекта:

  • отслеживание движения на больших временных интервалах
  • учет движения даже через события окклюзии
  • обеспечение согласованности в пространстве и времени

OmniMotion представляет собой новый метод оптимизации, предназначенный для более точной оценки как плотного, так и дальнего движения в видеопоследовательностях. В отличие от предыдущих алгоритмов, которые работали в ограниченных временных окнах, OmniMotion обеспечивает полное и глобально согласованное представление движения. Это означает, что каждый пиксель в видео теперь может быть точно отслежен на протяжении всего видеоматериала, открывая дверь для новых возможностей исследования и создания видеоконтента. Метод, предложенный в OmniMotion, позволяет справляться с такими сложными задачами, как отслеживание окклюзий и моделирование разнообразных комбинаций движения камеры и объекта. Тесты, проведенные во время исследования, продемонстрировали, что этот инновационный подход с легкостью превосходит ранее существовавшие методы как по количественным, так и по качественным показателям.

Рисунок 1
Рисунок 1. OmniMotion совместно отслеживает все точки видео во всех кадрах, даже через окклюзии.

Как показано выше на иллюстрации движения, OmniMotion позволяет оценить полноразмерные траектории движения для каждого пикселя в каждом кадре видео. Для наглядности демонстрируются разреженные траектории объектов на переднем плане, но также OmniMotion вычисляет траектории движения и для всех пикселей. Этот метод обеспечивает точное, последовательное движение на большие расстояния, даже для быстро движущихся объектов, и надежно отслеживает объекты даже через моменты заслонения, как показано в примерах с собакой и качелями.

В OmniMotion, канонический объем G представляет собой трехмерный атлас, содержащий информацию о видео. Он включает координатную сеть Fθ, основанную на методе NeRF, для установления соответствия между каждой канонической трехмерной координатой, плотностью σ и цветом c.

Информация о плотности помогает определить поверхности в кадре и выяснить, закрыты ли объекты, а цвет используется для вычисления фотометрических потерь в целях оптимизации. Канонический трехмерный объем играет важную роль в захвате и анализе динамики движения в сцене.

Также OmniMotion использует трехмерные биекции, которые обеспечивают непрерывное взаимнооднозначное соответствие между трехмерными точками в локальных координатах и канонической трехмерной системой координат. Эти биекции обеспечивают согласованность движения, гарантируя, что соответствие между трехмерными точками в разных кадрах происходит из одной и той же канонической точки.

Для представления сложного реального движения биекции реализованы с помощью обратимых нейронных сетей (INN), которые предоставляют выразительные и адаптивные возможности отображения. Этот метод позволяет OmniMotion точно захватывать и отслеживать движение в разных кадрах, сохраняя при этом общую согласованность данных.

Рисунок 2
Рисунок 2. Обзор метода. OmniMotion состоит из канонического трехмерного объема G и набора 3D-биекций.

Для реализации OmniMotion была создана сложная сеть, состоящая из шести слоев аффинного преобразования. Она способна вычислять скрытый код для каждого кадра, используя 2-слойную сеть с 256 каналами, а размерность этого кода составляет 128. Дополнительно, каноническое представление внедрено с применением архитектуры GaborNet, оснащенной 3 слоями и 512 каналами. Пиксельные координаты нормализуются в диапазоне [-1, 1], а для каждого кадра задается локальное 3D-пространство. Сопоставленные канонические местоположения инициализируются внутри единичной сферы. Кроме того, применяются операции сжатия, адаптированные из mip-NeRF 360, для численной стабильности в процессе обучения.

Обучение этой архитектуры происходит на каждой видеопоследовательности, с использованием оптимизатора Adam в течение 200 000 итераций. Каждый обучающий пакет включает в себя 256 пар соответствий, выбранных из 8 пар изображений, в итоге обеспечивая 1024 соответствия. Также важно отметить, что для каждого луча с использованием стратифицированной выборки выбираются 32 точки. Эта сложная архитектура играет ключевую роль в обеспечении выдающейся производительности OmniMotion и решает сложные задачи, связанные с оценкой движения в видео.

Одним из весьма полезных аспектов OmniMotion является его способность извлекать визуализацию псевдоглубины из оптимизированного квази-3D-представления. Это предоставляет информацию о разной глубине различных объектов на сцене и отображает их относительное положение. Ниже представлена иллюстрация, демонстрирующая визуализацию псевдоглубины. Ближние объекты обозначены синим цветом, в то время как дальние объекты отмечены красным, что ясно демонстрирует порядок различных частей сцены.

Рисунок 3
Рисунок 3. Визуализация псевдоглубины

Важно отметить, что как и многие методы оценки движения, OmniMotion имеет свои ограничения. Он не всегда справляется с весьма быстрыми и жесткими движениями, а также с тонкими конструкциями на сцене. В этих особых сценариях методы парных соответствий могут не обеспечить достаточно надежных соответствий, что может привести к недостаточной точности в вычислении глобального движения. OmniMotion продолжает развиваться, чтобы решить эти задачи и сделать свой вклад в совершенствование анализа движения в видео.

Ознакомится с демо версией можно здесь. Технические детали доступны на GitHub