22 episodes

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.

Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.

Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

Grundlagen der Automatischen Spracherkennung, WS15/16, Vorlesung Karlsruher Institut für Technologie (KIT)

- Education

- 8 FEB 2016
- video
Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 08.02.2016, Vorlesung 22

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 08.02.2016, Vorlesung 22

22: Vorlesung |
0:00:00 Starten
0:00:43 Adaption
0:08:52 Motivation
0:13:40 Adaption des Akustischen Modells
0:16:21 Mögliche Variationen
0:18:24 Adaption als Transformation
0:22:51 Arten der Adaption
0:27:13 Batch vs. Inkrementell
0:31:17 Überwachte und Unüberwachte Adaption
0:32:18 Training vs. Normalisierung
0:33:07 Merkmals vs. Modelladaption
0:36:23 Anwendung der Transformation
0:37:27 Optimierungskriterien zur Schätzung
0:39:40 Adaptionsmethoden
0:42:43 Vokaltraktlängen-normalisierung (VTLN)
0:52:39 VTLN: Experimente
0:58:53 Inkrementelle Adaption
1:05:06 Verschiedenes zu VTLN
1:08:48 MAP Adaption
1:14:37 Maximum Likelihood Linear Regression (MLLR)
1:17:54 Finden von Klassen
1:20:11 Label Boosting mit MLLR
1:21:48 Welche Adaption unter welchen Bedingungen
1:23:14 fMLLR
- 1 hr 25 min
- 8 FEB 2016
- video
Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 03.02.2016, Vorlesung 21

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 03.02.2016, Vorlesung 21

21: Vorlesung |
0:00:00 Starten
0:00:10 Suche
0:00:29 N-Besten Suche
0:01:50 Probleme mit n besten Listen
0:02:54 Wortgraphen
0:04:14 Zusammenfassung Beschleunigungstechniken
0:06:00 Mehrpass Suchen
0:06:55 Beispiel: IBIS Single Pass Decoder
0:11:18 Consensus Decoding
0:13:01 Bsp: MAP vs. Wort-Posteriori-W´keiten
0:16:36 Minimierung des Wortfehlers
0:19:28 Approximierung mit N-besten Listen
0:21:36 WER Minimierung auf Wortgraphen
0:24:26 Multiple Alignment WER
0:29:19 Finden des globalen Alignment
0:30:50 Multiple Alignment WER
0:32:37 Alignment als Äquivalenzrelation
0:34:37 Finden einer angemessenen Äquivalenzrelation
0:36:38 Intra-Wort-Clustern
0:38:44 Pruning
0:40:37 Confusionsnetzwerke
0:42:28 Multiple Alignment WER
0:43:03 Confusionsnetzwerke
0:43:26 Confusionsnetzwer-Hypothese
0:45:16 Multiple Alignment WER
0:45:53 Experimente
0:47:58 Systemkombination
0:49:14 Systemkombination mit ROVER
0:50:27 Alignierung vieler Hypothesen mittels DP
0:51:49 Beispiel
- 59 min
- 5 FEB 2016
- video
Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 01.02.2016, Vorlesung 20

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 01.02.2016, Vorlesung 20

20: Vorlesung |
0:00:00 Starten
0:00:19 Suchstrategien
0:01:25 Tiefensuche vs. Breitensuche
0:01:57 Heuristische Graphsuche
0:02:45 Zeitasynchrone Suche mit A*
0:04:15 Zeitsynchrone Strahlsuche
0:10:31 Beams in ASR
0:12:13 Beam vs. WER
0:15:45 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
0:20:59 Suchraum mit Uni-Gramm
0:23:03 Suchraum mit Bi-Grammen
0:26:32 Suchraum mit Tri-Grammen
0:33:48 Viterbi Decoding
0:40:42 A* mit Stack Decoder
0:42:50 Heuristik für A*
0:44:43 Fast Match
0:47:36 Vor- und Nachteile eines Stackdecoders
0:51:10 A* vs. Strahlsuche
0:52:39 Vermeidung von Redundanzen
0:54:44 Baumsuche
0:57:30 Baumsuche mit Sprachmodell
0:59:04 Delayed Bi-Grams
1:01:51 Einsparung durch Baum-Lexica
1:05:41 Kopien von Suchbäumen
1:10:36 Suche mit kontextabhängigen Modellen
1:13:38 Baumsuche mit kontextabhängigen Modellen
1:16:45 N-Besten Suche
- 1 hr 23 min
- 1 FEB 2016
- video
Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 27.01.2016, Vorlesung 19

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 27.01.2016, Vorlesung 19

19: Vorlesung |
0:00:00 Starten
0:00:14 Erinnerung: Fundamentalformel
0:02:20 Deterministische Sprachmodelle
0:05:42 Repräsentation der Grammatik
0:07:18 Formale Sprachtheorie
0:09:35 Chomsky Hierarchie
0:11:42 Chartparsing
0:14:29 Probabilistische CFGs
0:19:56 Probleme mit Erkennungsfehlern
0:24:06 Kombination von Sprachmodell und Akustischem Modell
0:33:35 Suche
0:35:46 Erinnerung: Fundamentalformel
0:37:15 Suche in der Spracherkennung
0:42:46 Erinnerung DTW und One-Stage-DP
0:44:02 Suche im Allgemeinen
0:46:51 Suche mit DP und Heuristik
0:48:19 Kenngrößen für Suchprobleme
0:50:18 Forward-/Backward-/bidirektionale Suche
0:51:51 Explizite vs. Implizite Implementierung
0:53:42 Blinde Suche
0:55:24 Suchstrategien
0:58:29 Tiefensuche vs. Breitensuche
1:00:41 Heuristische Graphsuche
1:03:40 Zeitasynchrone Suche mit A*
- 1 hr 11 min
- 28 JAN 2016
- video
Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 25.01.2016, Vorlesung 18

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 25.01.2016, Vorlesung 18

18: Vorlesung |
0:00:00 Starten
0:00:37 Graphembasierte Spracherkennung
0:06:48 Eignung von Graphemen
0:14:38 Verteilung von Schriften
0:16:21 Verteilung der Schriftsysteme
0:17:12 Eignung von Graphemen
0:18:10 Beispiele für schlechte Korrespondenz
0:19:32 Graphembasierte ASR für Arabisch
0:20:19 Englisch, Deutsch, Russisch, Spanisch, Thai
0:21:12 Kontextabhängige Modelle für Grapheme ASR
0:23:10 Flexibler Clusterbaum für Grapheme
0:24:20 Praktische Probleme
0:27:13 Spracherkennung bei ungeschriebenen Sprachen
0:30:13 Plansprachen (Exkurs)
0:32:23 Esperanto
0:35:15 Esperanto und ASR
0:35:59 Toki Pona
0:37:55 Toki Pona und ASR
0:38:40 Entwurf einer Sprache für ASR
0:40:45 Entwurf von Ziffernwörtern
0:42:42 Ergebnis
0:43:49 ASR für Roboter Interaktion
0:47:01 ASR für Roboter Interaktion (Ausblick)
- 50 min
- 19 JAN 2016
- video
Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 18.01.2016, Vorlesung 17

Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 18.01.2016, Vorlesung 17

17: Vorlesung |
0:00:00 Starten
0:00:13 Kurze Wiederholung der letzten Vorlesung
0:04:16 Kneser-Ney Backoff
0:08:07 Schätzung von Beta - Margnialisierung
0:16:51 Leaving-One-Out Beta Schätzung
0:19:04 Ergebnisse von Kneser-Ney
0:20:27 Qualität von Sprachmodellen
0:23:21 Entropie einer Wortquelle
0:26:29 Perplexität von Sprachmodellen
0:35:16 Perplexität und Akustik
0:38:02 Klassenbasierte Sprachmodelle
0:44:08 Aussprachevarianten
0:45:58 Multiworte
0:47:59 Besondere Arten von Sprachmodellen
0:48:44 Interpolierte Sprachmodelle
0:53:56 Cache Sprachmodelle
0:57:49 Trigger Sprachmodelle
1:00:06 Mehrschichtige Sprachmodelle
1:01:56 Verzahnte Sprachmodelle
1:04:26 Morphembasierte Sprachmodelle
1:10:31 Entscheidungsbäume
1:12:02 HMMs für Modellierung
1:13:57 Probleme mit Spontaner Sprache
1:18:11 Probleme mit unbekannten Wörtern
1:20:34 Besonderheiten verschiedener Sprachen
- 1 hr 23 min