English»Natural Language Processing and Computational Linguistics»Speech Recognition»End-to-end neural network systems

Blog

Directory

Cold Fusion: Training Seq2Seq Models Together with Language Models Anuroop Sriram, Heewoo Jun, Sanjeev Satheesh, Adam Coates

Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks A Graves, S Fernández, F Gomez, J Schmidhuber

Deep Speech 2: End-to-End Speech Recognition in English and Mandarin Dario Amodei, Rishita Anubhai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Jingdong Chen, Mike Chrzanowski, Adam Coates, Greg Diamos, Erich Elsen, Jesse Engel, Linxi Fan, Christopher Fougner, Tony Han, Awni Hannun, Billy Jun, ...

Deep Speech: Scaling up end-to-end speech recognition Awni Y. Hannun, Carl Case, Jared Casper, Bryan Catanzaro, Greg Diamos, Erich Elsen, Ryan Prenger, Sanjeev Satheesh, Shubho Sengupta, Adam Coates, Andrew Y. Ng

Exploring Neural Transducers for End-to-End Speech Recognition. Eric Battenberg, Jitong Chen, Rewon Child, Adam Coates, Yashesh Gaur, Yi Li, Hairong Liu, Sanjeev Satheesh, David Seetapun, Anuroop Sriram, Zhenyao Zhu

First-Pass Large Vocabulary Continuous Speech Recognition using Bi-Directional Recurrent DNNs Andrew L. Maas, Awni Y. Hannun, Daniel Jurafsky, Andrew Y. Ng

Gram-CTC: Automatic Unit Selection and Target Decomposition for Sequence Labelling Hairong Liu, Zhenyao Zhu, Xiangang Li, Sanjeev Satheesh

Listen, attend and spell: A neural network for large vocabulary conversational speech recognition W Chan, N Jaitly, Q Le, O Vinyals

Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition Haşim Sak, Andrew Senior, Françoise Beaufays

Neural Speech Recognizer: Acoustic-to-Word LSTM Model for Large Vocabulary Speech Recognition Hagen Soltau, Hank Liao, Hasim Sak

Purely sequence-trained neural networks for ASR based on lattice-free MMI Daniel Povey, Vijayaditya Peddinti, Daniel Galvez, Pegah Ghahremani, Vimal Manohar, Xingyu Na, Yiming Wang, Sanjeev Khudanpur:

Sequence Modeling With CTC Awni Hannun - A visual guide to Connectionist Temporal Classiﬁcation, an algorithm used to train deep neural networks in speech recognition, handwriting recognition and other sequence problems.

Speech recognition with deep recurrent neural networks A Graves, A Mohamed, G Hinton