Audio-visual deep learning for noise robust speech recognition

Jing Huang; Brian Kingsbury

doi:10.1109/ICASSP.2013.6639140

ICASSP 2013

Conference paper

18 Oct 2013

Audio-visual deep learning for noise robust speech recognition

View publication

Abstract

Deep belief networks (DBN) have shown impressive improvements over Gaussian mixture models for automatic speech recognition. In this work we use DBNs for audio-visual speech recognition; in particular, we use deep learning from audio and visual features for noise robust speech recognition. We test two methods for using DBNs in a multimodal setting: a conventional decision fusion method that combines scores from single-modality DBNs, and a novel feature fusion method that operates on mid-level features learned by the single-modality DBNs. On a continuously spoken digit recognition task, our experiments show that these methods can reduce word error rate by as much as 21% relative over a baseline multi-stream audio-visual GMM/HMM system. © 2013 IEEE.

Conference paper