Grundlagen der Automatischen Spracherkennung, WS17/18, Vorlesung Karlsruher Institut für Technologie (KIT)
-
- Education
Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.
Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.
Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.
-
- video
22: Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2017/18, 05.02.2018
22 |
0:00:00 Starten
0:00:15 Qualität von Sprachmodellen
0:04:22 Entropie einer Wortquelle
0:09:36 Perplexität von Sprachmodellen
0:17:42 Perpkexität und Akustik
0:21:51 Adaption - Motivation
0:30:51 Adaption des Akustischen Modells
0:38:46 Adaption als Transformation
0:40:45 Arten der Adaption
0:50:50 Anweundung der Transformation
0:54:11 Adaptionsmethoden
0:56:06 Vokaltraktlängen- normalisierung (VTLN)
1:11:27 VTLN: Experimente -
- video
21: Grundlagen der Automatischen Spracherkennung,Vorlesung, WS 2017/18, 31.01.2018
21 |
0:00:00 Starten
0:01:04 Korrektives Training
0:12:17 Transinformation/ Mutual information
0:21:21 Erweiterte Baum-Welch Regeln
0:31:00 MWE/MCE Training
0:56:56 Herausforderung bei der OOV Detektion
1:09:49 Lernen der neuen Wörter
1:15:34 Motivation -
- video
20: Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2017/18, 29.01.2018
20 |
0:00:00 Starten
0:01:10 Mehrpass Suchen
0:03:15 beispiel: IBIS Single Pass Decoder
0:10:01 Consensus Decoding
0:13:08 Bsp: MAP vs. Wort-Posteriori-W‘keiten
0:17:54 Minimierung des Wortfehlers
0:21:23 Approximierung mit N-besten Listen
0:25:09 WER Minimierung auf Wortgraphen
0:33:50 Algiment als Äquivalenzrelation
0:37:22 Intra-Wort-Clustern
0:41:36 Confusionsnetzwerke
0:47:21 Systemkombonation
0:55:12 Mehrheitentscheidung
1:02:54 Probleme mit EM Training -
- video
19: Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2017/18, 24.01.2018
19 |
0:00:00 Starten
0:00:09 Start
0:00:22 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
0:07:31 Suchraum mit Tri-Grammen
0:08:57 Viterbi Decoding
0:13:15 A* mit Stack Decoder
0:16:43 Heuristik für A*
0:21:35 Fast Match
0:25:21 Vor- und Nachteile Stackdecoder
0:28:35 A* vs. Strahlsuche
0:33:40 Vermeidung von Redundanzen
0:36:53 Baumsuche
0:39:27 Baumsuche mit Sprachmodell
0:41:46 Delayed Bi-Grams
0:43:36 Einsparung durch Baum-Lexica
0:48:20 Kopien von Suchbäumen
0:54:12 Suche mit kontextabhängigen Modellen
0:54:49 Baumsuche mit kontextabhängigen Modellen
0:59:02 N-Besten Suche
1:05:18 Probleme mit n besten Listen
1:08:31 Wortgraphen
1:11:16 Zusammenfassung Beschleunigungstechniken
1:12:58 Mehrpass Suchen -
- video
18: Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2017/18, 22.01.2018
18 |
0:00:00 Starten
0:01:53 Chartparsing
0:03:45 Probabilistische CFGs
0:07:16 Suche
0:10:24 Suche in der Spracherkennung
0:24:59 Suche mit DP und Heuristik
0:31:09 Explizite vs. Implizite Implementierung
0:42:08 Suchstrategien
0:44:13 Tiefensuche vs. Breitensuche
0:49:34 Heuristische Graphsuche
0:52:49 Zeitasynchrone Suche mit A*
0:58:09 Zeitsynchrone Strahlschule
1:03:37 Beam vs. WER
1:09:48 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
1:13:08 Suche mit Uni-Gramm -
- video
17: Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2017/18, 17.01.2018
17 |
0:00:00 Starten
0:00:09 Back-Off Sprachmodelle
0:02:08 Back-Off LM
0:05:22 Katz Backoff
0:09:28 Kneser-Ney Backoff
0:13:12 Schätzung von β - Margnialisierung
0:14:49 Leaving-One-Out β Schätzung
0:17:31 Klassenbasierte N-Gram LM
0:22:49 Klassenbasierte Sprachmodelle
0:24:13 Aussprachevarianten
0:25:27 Multiworte
0:27:52 Besondere Arten von Sprachmodellen
0:48:40 Entscheidungsbäume
0:52:26 HMMs für Sprachmodellierung
0:58:00 Probleme bei Sprachmodellen
1:06:55 Kombination von Sprachmodell und Akustischem Modell
1:13:39 Deterministische Sprachmodelle
1:16:17 Repräsentation der Grammatik