Как нейронные сети обучаются движению? Интерпретация моделирования движения с использованием относительного изменения положения
Понимание движения играет важную роль в кросс-медийном анализе на основе видео и обучении множественному представлению знаний. Группа исследователей под руководством Хехе Фана изучила проблемы распознавания и прогнозирования физического движения с помощью глубоких нейронных сетей (DNNs), в частности сверточные нейронные сети и рекуррентные нейронные сети. Ученые разработали и протестировали подход к глубокому обучению, основанный на относительном изменении положения, закодированном в виде серии векторов, и обнаружили, что их метод работает лучше, чем существующие фреймворки для моделирования движения.
В физике движение — это относительное изменение положения во времени. Чтобы исключить факторы объекта и фона, ученые сфокусировались на идеальном сценарии, в котором точка движется в двумерной (2D) плоскости. Для оценки способности архитектур DNN моделировать движение использовались две задачи: распознавание движения и прогнозирование движения. В результате была разработана векторная сеть (VecNet) для моделирования относительного изменения положения. Ключевым нововведением ученых было кодирование движения отдельно от положения.
Исследование группы было опубликовано в журнале Intelligent Computing.
Исследование посвящено анализу движения. Распознавание движения направлено на распознавание различных типов движений из серии наблюдений. Это можно рассматривать как одно из необходимых условий распознавания действия, поскольку распознавание действия можно разложить на распознавание объекта и распознавание движения. Например, чтобы распознать действие «открыть дверь», DNN должны распознать объект «дверь» и движение «открыть». В противном случае модель не отличала бы «открыть дверь» от «открыть окно» или «открыть дверь» от «закрыть дверь». Прогнозирование движения направлено на прогнозирование будущего изменения положения после просмотра части движения, т. е. контекста движения, что можно считать одним из необходимых условий видеопрогнозов.
VecNet принимает движение на коротком интервале как вектор. VecNet также может переместить точку в соответствующую позицию, заданную векторным представлением. Чтобы получить представление о движении в течение длительного времени, использовалась долгая краткосрочная память (LSTM) для агрегирования или прогнозирования векторных представлений с течением времени. Полученный в результате новый метод VecNet+LSTM способен эффективно поддерживать как распознавание, так и прогнозирование, доказывая, что моделирование изменения относительного положения необходимо для распознавания движения и упрощает прогнозирование движения.
Распознавание действия связано с распознаванием движения, потому что оно связано с движением. Поскольку не существует однозначной современной архитектуры DNN для распознавания действий, исследователи сравнили и изучили подмножество моделей, охватывающих большую часть области.
Подход VecNet + LSTM при тестировании на распознавание движения получил более высокие оценки, чем шесть других популярных архитектур DNN из видеоисследований по моделированию изменения относительного положения. Часть из них оказалась просто слабее, а часть абсолютно не подходила для задачи моделирования движения.
Например, при сравнении с методом ConvLSTM новый метод оказался более достоверным, требовал меньше времени для обучения и не так быстро терял точность при выполнении дополнительных прогнозов.
Эксперименты показали, что метод VecNet + LSTM эффективен для распознавания и прогнозирования движения. Он подтверждает, что использование относительного изменения положения значительно улучшает моделирование движения. С помощью методов внешнего вида или обработки изображений предлагаемый метод моделирования движения можно использовать для общего понимания видео, которое можно будет изучить в будущем.