W2V-BERT: Объединение контрастивного обучения и языка моделирования с маской для самоконтролируемого предварительного обучения речи

Мотивированные успехом моделирования масочного языка (MLM) в предварительном обучении моделей обработки естественного языка до обучения, авторы предлагают модель w2v-BERT, которая исследует MLM для самостоятельного обучения представлению речи.

w2v-BERT – это фреймворк, который сочетает в себе контрастное обучение и MLM, где первый обучает модель дискретизации входных непрерывных речевых сигналов в конечный набор описательных речевых наименований, а второй обучает модель изучать контекстуализированные речевые представления через решение задачи предсказания с маской, которой на вход подаются дискретизированные лексемы.

В отличие от существующих систем предварительного обучения речи на основе MLM, таких как HuBERT, которая основана на итеративном процессе повторной кластеризации и повторного обучения, или vq-wav2vec, которая объединяет два отдельно обученных модуля, w2v-BERT может быть оптимизирована end-to-end путем одновременного решения двух самоконтролируемых задач (сравнительная задача и MLM).

Проведенные авторами эксперименты показывают, что w2v-BERT достигает конкурентоспособных результатов по сравнению с текущими современными предварительно обученными моделями на эталонных тестах LibriSpeech при использовании корпуса Libri-Light ~ 60k в качестве “неконтролируемых” данных.

В частности, по сравнению с опубликованными моделями, такими как wav2vec~2.0 и HuBERT, представленная модель показывает относительное снижение WER от 5% до10% на подмножествах test-clean и test-other. При применении к набору данных трафика голосового поиска Google, w2v-BERT превосходит авторскою модель wav2vec~2.0 более чем на 30%.

Целиком статью можно просмотреть здесь.

Также на YouTube есть обучающее видео.