Presentation 2

The document discusses end-to-end automatic speech recognition. It mentions two popular open-source toolkits, ESPnet and Eesen, for building end-to-end ASR systems. ESPnet is based on Chainer and PyTorch and follows the Kaldi toolkit for data processing and recipes. Eesen is based on Kaldi but uses bidirectional RNNs/LSTMs with CTC training. It also discusses using Kaldi for end-to-end ASR with TensorFlow integration. Finally, it reviews several papers on end-to-end approaches using CNNs and RNNs with different features.

Uploaded by

api-332129590

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

989 views12 pages

Presentation 2

Uploaded by

api-332129590

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 12

End-to-End Automatic KUNAL DHAWAN

Speech Recognition KUMAR PRIYADARSHI

Meeting 1
End to End ASR:
online libraries and
open source code
ESPnet: end-to-
end speech
processing toolkit
 Based on Chainer and
PyTorch
 Follows Kaldi ASR toolkit style
for data processing, feature
extraction/format, and
recipes to provide a
complete setup for speech
recognition
 Paper:
https://arxiv.org/pdf/1804.00
015.pdf
 Pretty recent , thus has some bugs, but contributors active in solving
them:
2)Eesen
 Based on Kaldi
 Acoustic Model -- Bi-directional RNNs with LSTM units.
 Training -- Connectionist temporal classification (CTC) as the training
objective.
 Decoding -- A principled decoding approach based on Weighted
Finite-State Transducers (WFSTs).
 Paper: https://arxiv.org/pdf/1507.08240.pdf
 Problems : Difficult to
modify and try out new
things using this library
Kaldi

No current implementation
specifically for end to end ASR

But Kaldi now offers tensorflow

integration. This means it would
be easy to try out our own
ideas
Literature Review
• End-to-End Deep Neural Network for Automatic Speech Recognition (2016)
William Song, Jim Cai, Stanford University

 Approach
 CNN for frame level Classification
 RNN with CTC loss for decoding
 Traditioinal Hidden Markov Model not used
 Used Mel logged-filter bank features as input

 Results
 Frame level classification satisfactory
 Decoding scheme needs improvement
Literature Review
• Towards End-To-End Speech Recognition with Deep Convolutional Neural
Networks Bengio et al., Interspeech 2016

 Approach
 CNN for frame level Classification
 No RNN used at all
 CTC loss used for decoding
 Traditioinal Hidden Markov Model not used
 Used Mel logged-filter bank features as input

 Results
 CNN able to capture temporal relations
 Training faster as comapred to RNN models
Literature Review
• End-To-End Speech Recognition from the Raw Waveform (2018)
Zeghidour et al., Facebook A.I.

 Approach
 End-to-End system trained directly from Raw Waveform
 Uses trainable filterbanks in place of log mel-filterbanks
 Uses CNN architecture

 Results
 Improved performance over log mel-filterbanks
Thank you!

A State of Art Techniques On Machine Learning Algorithms A Perspective of Supervised Learning Approaches in Data Classification
100% (1)
A State of Art Techniques On Machine Learning Algorithms A Perspective of Supervised Learning Approaches in Data Classification
5 pages
Deep Learning Based TTS-STT Model With Transliteration For Indic Languages
No ratings yet
Deep Learning Based TTS-STT Model With Transliteration For Indic Languages
9 pages
Fundamentals of Speech Recognitiony - Lawrence Rabiner - Biing-Hwang Juang PDF
No ratings yet
Fundamentals of Speech Recognitiony - Lawrence Rabiner - Biing-Hwang Juang PDF
546 pages
Project Report Group1
100% (2)
Project Report Group1
91 pages
Kaldi For Dummies
No ratings yet
Kaldi For Dummies
13 pages
Pytorch-Kaldi 2018
No ratings yet
Pytorch-Kaldi 2018
5 pages
What Is Kaldi?: History of The Kaldi Project
No ratings yet
What Is Kaldi?: History of The Kaldi Project
3 pages
The Kaldi Speech Recognition Toolkit
No ratings yet
The Kaldi Speech Recognition Toolkit
4 pages
Kaldi Whitepaper PDF
No ratings yet
Kaldi Whitepaper PDF
4 pages
Speaker Recognition
No ratings yet
Speaker Recognition
29 pages
Presentation On Speech Recognition
No ratings yet
Presentation On Speech Recognition
11 pages
Speech Enhancement Using Kalman Filter
No ratings yet
Speech Enhancement Using Kalman Filter
14 pages
How To Use An Existing DNN Recognizer For Decoding in Kaldi
No ratings yet
How To Use An Existing DNN Recognizer For Decoding in Kaldi
14 pages
The Kaldi Speech Recognition Toolkit PDF
No ratings yet
The Kaldi Speech Recognition Toolkit PDF
4 pages
Real Time DSP: Professors: Eng. Julian Bruno Eng. Mariano Llamedo Soria
No ratings yet
Real Time DSP: Professors: Eng. Julian Bruno Eng. Mariano Llamedo Soria
29 pages
Kalman Filter
No ratings yet
Kalman Filter
31 pages
Bad Ideas
No ratings yet
Bad Ideas
69 pages
Highly-Accurate Machine Fault Diagnosis Using Deep Transfer Learning
100% (1)
Highly-Accurate Machine Fault Diagnosis Using Deep Transfer Learning
9 pages
DSP Filter Design With Sptool Matlab
No ratings yet
DSP Filter Design With Sptool Matlab
6 pages
Useful Matlab Code
No ratings yet
Useful Matlab Code
5 pages
Hello.: An Introduction To Devops For Project Managers
No ratings yet
Hello.: An Introduction To Devops For Project Managers
35 pages
9 - Neural Modelling and Control
No ratings yet
9 - Neural Modelling and Control
17 pages
Temperature Control and Adaptive Fuzzy Systems
No ratings yet
Temperature Control and Adaptive Fuzzy Systems
11 pages
RHCSA-4 Basic Concepts and Commands
No ratings yet
RHCSA-4 Basic Concepts and Commands
11 pages
LSTM
No ratings yet
LSTM
42 pages
Malcolm Sherrington - AlgorithmicTradingInR
No ratings yet
Malcolm Sherrington - AlgorithmicTradingInR
30 pages
Signals and Systems
No ratings yet
Signals and Systems
37 pages
Lab 1 Slides
No ratings yet
Lab 1 Slides
28 pages
MFCC
100% (2)
MFCC
6 pages
Q-Learning and Deep Q Networks (DQN)
No ratings yet
Q-Learning and Deep Q Networks (DQN)
52 pages
Lec11&12-Adversarial Search
No ratings yet
Lec11&12-Adversarial Search
30 pages
AI Unit 4 - Artificial Neural Network by Kulbhushan (Krazy Kaksha & KK World)
No ratings yet
AI Unit 4 - Artificial Neural Network by Kulbhushan (Krazy Kaksha & KK World)
5 pages
Simulink Basics Tutorial PDF
No ratings yet
Simulink Basics Tutorial PDF
44 pages
A Brief Introduction To Matlab
No ratings yet
A Brief Introduction To Matlab
8 pages
Building Expert Systems in Prolog
100% (1)
Building Expert Systems in Prolog
308 pages
Iot Merged
No ratings yet
Iot Merged
132 pages
A Course in Advanced Signal Processing
No ratings yet
A Course in Advanced Signal Processing
16 pages
Artemis User Guide
No ratings yet
Artemis User Guide
132 pages
Apache Flume Tutorial PDF
No ratings yet
Apache Flume Tutorial PDF
43 pages
Automatic Fault Detection System Using PLC
No ratings yet
Automatic Fault Detection System Using PLC
26 pages
Creation VSM - Modelos Componentes Electronicos
No ratings yet
Creation VSM - Modelos Componentes Electronicos
14 pages
RHCSA-17 Copying Files Between System Securely
No ratings yet
RHCSA-17 Copying Files Between System Securely
5 pages
Artificial Neural Networks Unit 3: Single-Layer Perceptrons
No ratings yet
Artificial Neural Networks Unit 3: Single-Layer Perceptrons
11 pages
Matlab-Intro11.12.08 Sina PDF
No ratings yet
Matlab-Intro11.12.08 Sina PDF
26 pages
Lecture 1 Kaldi
No ratings yet
Lecture 1 Kaldi
56 pages
Fault Detection Classification
No ratings yet
Fault Detection Classification
210 pages
Fuzzy C-Means Clustering - MATLAB FCM
0% (1)
Fuzzy C-Means Clustering - MATLAB FCM
6 pages
Memristor
No ratings yet
Memristor
18 pages
3 - ANN Part One PDF
No ratings yet
3 - ANN Part One PDF
30 pages
Group E Deep Learning Final
No ratings yet
Group E Deep Learning Final
31 pages
Simulink Design Optimization - User's Guide
No ratings yet
Simulink Design Optimization - User's Guide
411 pages
DSP Lab Demo
No ratings yet
DSP Lab Demo
37 pages
Oracle Python - Querying Best Practices
No ratings yet
Oracle Python - Querying Best Practices
5 pages
PThread API Reference
No ratings yet
PThread API Reference
348 pages
A Review of Reinforcement Learning Based Intelligent Optimization For Manufacturing Scheduling
No ratings yet
A Review of Reinforcement Learning Based Intelligent Optimization For Manufacturing Scheduling
14 pages
Solutions Assignment1 Seg3155 2011w
No ratings yet
Solutions Assignment1 Seg3155 2011w
5 pages
The Transformer Model in Equations: John Thickstun
No ratings yet
The Transformer Model in Equations: John Thickstun
5 pages
Artificial Neural Network
No ratings yet
Artificial Neural Network
8 pages
Advanced Digital Signal Processing Lecture 1
0% (1)
Advanced Digital Signal Processing Lecture 1
42 pages
Python 3 Cheat Sheet: Int Float Bool STR List Tuple
No ratings yet
Python 3 Cheat Sheet: Int Float Bool STR List Tuple
2 pages
End-to-End Automatic Speech Recognition
No ratings yet
End-to-End Automatic Speech Recognition
19 pages
Fairmot Explained 1
No ratings yet
Fairmot Explained 1
19 pages
Usc Poster
No ratings yet
Usc Poster
1 page
Attention
No ratings yet
Attention
12 pages
Rs 1 Poster
No ratings yet
Rs 1 Poster
1 page
BTP Thesis rs1 End-To-End-Asr
No ratings yet
BTP Thesis rs1 End-To-End-Asr
51 pages
Towards Adapting NMF Dictionaries Using Total Variability Modeling For Noise-Robust Acoustic Features
No ratings yet
Towards Adapting NMF Dictionaries Using Total Variability Modeling For Noise-Robust Acoustic Features
5 pages
Projectreport-G15 Tue
100% (1)
Projectreport-G15 Tue
19 pages
Coursera Wx29vxacwe33
No ratings yet
Coursera Wx29vxacwe33
1 page
Coursera A6n52bwq2vkg
No ratings yet
Coursera A6n52bwq2vkg
1 page
Coursera Kaxe2yuddqpy
No ratings yet
Coursera Kaxe2yuddqpy
1 page
Coursera Vtwwcbh3ae6w
No ratings yet
Coursera Vtwwcbh3ae6w
1 page
Coursera vg79h67t6f58
No ratings yet
Coursera vg79h67t6f58
1 page
Coursera Vgle3dsyt3ke
No ratings yet
Coursera Vgle3dsyt3ke
1 page
Cls v2 1 6
No ratings yet
Cls v2 1 6
15 pages
Verilog Final Code
No ratings yet
Verilog Final Code
5 pages
Coursera lz9hplj95ph6
No ratings yet
Coursera lz9hplj95ph6
1 page
Project Report Iitd KD
No ratings yet
Project Report Iitd KD
48 pages
Ps Ip
No ratings yet
Ps Ip
7 pages
Project Report-Lg
100% (1)
Project Report-Lg
85 pages
Probability Tables
No ratings yet
Probability Tables
4 pages
Z Table Statistics
No ratings yet
Z Table Statistics
9 pages
State Machine Diagram Vs Activity Diagram
0% (1)
State Machine Diagram Vs Activity Diagram
1 page
Uniform Distribution: Function Is Given by
100% (1)
Uniform Distribution: Function Is Given by
2 pages
Random Variables: Random Variables Study Material For Week 6 Lecture Five
No ratings yet
Random Variables: Random Variables Study Material For Week 6 Lecture Five
7 pages
General Linear Model
No ratings yet
General Linear Model
5 pages
A Recurrent Neural Network
No ratings yet
A Recurrent Neural Network
3 pages
Ankon Gopal Banik: According To The Syllabus of Department of CSE, Gono Bishwabidiyalay
No ratings yet
Ankon Gopal Banik: According To The Syllabus of Department of CSE, Gono Bishwabidiyalay
28 pages
تقدير دالة الطلب على الواردات في السودان خلال الفترة (1998- 2017)
No ratings yet
تقدير دالة الطلب على الواردات في السودان خلال الفترة (1998- 2017)
15 pages
Lesson Teaching Plan: Subject: Automata Theory Branch: Computer Application Semester: 4 Faculty Name: Bighnaraj Naik
No ratings yet
Lesson Teaching Plan: Subject: Automata Theory Branch: Computer Application Semester: 4 Faculty Name: Bighnaraj Naik
2 pages
Regular Languages and Finite State Automata
No ratings yet
Regular Languages and Finite State Automata
15 pages
15 CYK Algorithm and PDA: 15.1.1 Example Write The CNF of The Fallowing CFL
No ratings yet
15 CYK Algorithm and PDA: 15.1.1 Example Write The CNF of The Fallowing CFL
7 pages
Assessing The Out of Sample Forecast Performance of LSTAR Andd GARCH Models
No ratings yet
Assessing The Out of Sample Forecast Performance of LSTAR Andd GARCH Models
11 pages
20CS4701A
No ratings yet
20CS4701A
2 pages
Keras and Tensorflow
No ratings yet
Keras and Tensorflow
11 pages
Gamma Distribution
No ratings yet
Gamma Distribution
12 pages
Paradigma Kompleksnosti U Rekonceptualizovanju Menad@Menta: Slavica P. Petrovi)
No ratings yet
Paradigma Kompleksnosti U Rekonceptualizovanju Menad@Menta: Slavica P. Petrovi)
33 pages
Enjoy The Joy of Copulas
No ratings yet
Enjoy The Joy of Copulas
20 pages
CCS369 Unit-2 20.12.24
No ratings yet
CCS369 Unit-2 20.12.24
41 pages
Unit II
No ratings yet
Unit II
35 pages
Machine Learning Notes
No ratings yet
Machine Learning Notes
5 pages
Holt's Winter Forcast
No ratings yet
Holt's Winter Forcast
8 pages
Wooldridge, J. M., 2010. Econometric Analysis of Cross Section and Panel Data
0% (2)
Wooldridge, J. M., 2010. Econometric Analysis of Cross Section and Panel Data
17 pages
Using: Neural Networks in Reliability Prediction
No ratings yet
Using: Neural Networks in Reliability Prediction
7 pages
Cumulative Poisson Probability Distribution Table: Appendix C
No ratings yet
Cumulative Poisson Probability Distribution Table: Appendix C
5 pages
The Kullback-Leibler Divergence For Univariate Models
No ratings yet
The Kullback-Leibler Divergence For Univariate Models
2 pages
CS402 Quiz-2 File by Vu Topper RM
No ratings yet
CS402 Quiz-2 File by Vu Topper RM
56 pages
Fundamentals of Neural Networks
No ratings yet
Fundamentals of Neural Networks
24 pages
Artificial Neural Networks: Classification Using Multilayer Perceptron Model
No ratings yet
Artificial Neural Networks: Classification Using Multilayer Perceptron Model
15 pages
Lecture Notes 1 36-705 Brief Review of Basic Probability
No ratings yet
Lecture Notes 1 36-705 Brief Review of Basic Probability
7 pages

Presentation 2

Uploaded by

Presentation 2

Uploaded by

End-to-End Automatic KUNAL DHAWAN

Speech Recognition KUMAR PRIYADARSHI

But Kaldi now offers tensorflow

You might also like