Слідкуйте за кожним пікселем: оцінка руху з OmniMotion
Дослідження в галузі комп'ютерного зору безперервно розширюють горизонти можливостей для редагування та створення відеоконтенту, і одним із нових інноваційних інструментів, представлених на Міжнародній конференції з комп'ютерного зору в Парижі, є OmniMotion. Він описаний у документі “Відстеження всього, скрізь і відразу”. Цей інструмент, розроблений вченими з Корнелла, є потужним засобом оптимізації, призначеним для оцінки руху у відеоматеріалах. Він відкриває потенціал для революційних змін у редагуванні відео та створенні генеративного контенту з використанням штучного інтелекту.
Традиційно методи оцінки руху слідували одному з двох основних підходів: відстеження розріджених об'єктів або використання щільного оптичного потоку. Однак жоден із них не дозволяв повністю моделювати рух у відео на великих часових інтервалах та вести облік руху всіх пікселів у відеозаписі. Методи, використані для вирішення цієї проблеми, часто обмежені за контекстом у часі та просторі, що призводить до накопичення помилок на довгих траєкторіях та невідповідностей в оцінках руху. Загалом, розробка методів для відстеження як щільних, так і далеких траєкторій залишається актуальним завданням у цій сфері, яке включає три основні аспекти:
- відстеження руху на великих часових інтервалах
- облік руху навіть через події оклюзії
- забезпечення узгодженості у просторі та часі
OmniMotion є новим методом оптимізації, який призначений для більш точної оцінки як щільного, так і далекого руху у відеопослідовності. На відміну від попередніх алгоритмів, які працювали в обмежених часових вікнах, OmniMotion забезпечує повне та глобально узгоджене уявлення руху. Це означає, що кожен піксель у відео тепер може бути точно відстежений протягом усього відео, відкриваючи двері для нових можливостей дослідження та створення відеоконтенту. Метод, запропонований в OmniMotion, дозволяє справлятися з такими складними завданнями, як відстеження оклюзій та моделювання різноманітних комбінацій руху камери та об'єкта. Тести, які було проведено під час дослідження, продемонстрували, що цей інноваційний підхід з легкістю перевершує існуючі методи як за кількісними, так і за якісними показниками.
Як показано на ілюстрації руху, OmniMotion дозволяє оцінити повнорозмірні траєкторії руху для кожного пікселя в кожному кадрі відео. Для наочності демонструються розріджені траєкторії об'єктів на передньому плані, але OmniMotion обчислює траєкторії руху і для всіх пікселів. Цей метод забезпечує точний, послідовний рух на великі відстані, навіть для об'єктів, що швидко рухаються, і надійно відстежує об'єкти також і у випадку наявності перешкод, як відбувається в прикладах з собакою і гойдалками.
У OmniMotion канонічний об'єм G є тривимірним атласом, що містить інформацію про відео. Він включає координатну мережу Fθ, засновану на методі NeRF, для встановлення відповідності між кожною тримерною канонічною координатою, щільністю σ і кольором c.
Інформація про щільність допомагає визначити поверхні в кадрі і з'ясувати, чи об'єкти прикриті, а колір використовується для обчислення фотометричних втрат з метою оптимізації. Канонічний тривимірний обсяг відіграє важливу роль у захопленні та аналізі динаміки руху в сцені.
Також OmniMotion використовує тривимірні бієкції, які забезпечують безперервну однозначну відповідність між тривимірними точками у локальних координатах і канонічною тривимірною системою координат. Ці бієкції забезпечують узгодженість руху, гарантуючи, що відповідність між тривимірними точками в різних кадрах походить з однієї і тієї ж канонічної точки.
Для представлення складного реального руху бієкції реалізовані за допомогою оборотних нейронних мереж (INN), які надають виразні та адаптивні можливості відображення. Цей метод дозволяє OmniMotion точно захоплювати та відстежувати рух у різних кадрах, зберігаючи при цьому загальну узгодженість даних.
Для реалізації OmniMotion була створена складна мережа, що складається із шести шарів афінного перетворення. Вона здатна обчислювати прихований код для кожного кадру, використовуючи 2-шарову мережу з 256 каналами, а розмір цього коду становить 128. Додатково, канонічне уявлення впроваджено із застосуванням архітектури GaborNet, оснащеної 3 шарами і 512 каналами. Піксельні координати нормалізуються в діапазоні [-1, 1], а для кожного кадру задається локальний 3D-простір. Зіставлені канонічні розташування ініціалізуються всередині одиничної сфери. Крім того, застосовуються операції стиснення адаптовані з mip-NeRF 360 для чисельної стабільності в процесі навчання.
Навчання цієї архітектури відбувається на кожній відеопослідовності з використанням оптимізатора Adam протягом 200 000 ітерацій. Кожен навчальний пакет включає 256 пар відповідностей, вибраних з 8 пар зображень, в результаті забезпечуючи 1024 відповідності. Також важливо відзначити, що для кожного променя з використанням стратифікованої вибірки вибираються 32 точки. Ця складна архітектура відіграє ключову роль у забезпеченні визначної продуктивності OmniMotion та вирішує складні завдання, пов'язані з оцінкою руху у відео.
Одним із дуже корисних аспектів OmniMotion є його здатність отримувати візуалізацію псевдоглибини з оптимізованого квазі-3D-представлення. Це надає інформацію про різну глибину різних об'єктів на сцені та відображає їхнє відносне положення. Нижче представлено ілюстрацію, що демонструє візуалізацію псевдоглибини. Близькі об'єкти позначені синім кольором, тоді як дальні об'єкти позначені червоним, що ясно демонструє порядок різних частин сцени.
Важливо відзначити, що, як і багато методів оцінки руху, OmniMotion має свої обмеження. Він не завжди справляється з дуже швидкими та жорсткими рухами, а також тонкими конструкціями на сцені. У цих спеціальних сценаріях методи парних відповідностей можуть не забезпечити достатньо надійних відповідностей, що може призвести до недостатньої точності в обчисленні глобального руху. OmniMotion продовжує розвиватися, щоб вирішити ці виклики та зробити свій внесок у вдосконалення аналізу руху відео.
Ознайомитись з демо версією можна тут. Технічні деталі доступні на GitHub