22 episodes

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.

Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.

Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

Grundlagen der Automatischen Spracherkennung, WS15/16, Vorlesung Karlsruher Institut für Technologie (KIT)

    • Education

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt.

Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen.

Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können.
Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

    • video
    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 08.02.2016, Vorlesung 22

    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 08.02.2016, Vorlesung 22

    22: Vorlesung |
    0:00:00 Starten
    0:00:43 Adaption
    0:08:52 Motivation
    0:13:40 Adaption des Akustischen Modells
    0:16:21 Mögliche Variationen
    0:18:24 Adaption als Transformation
    0:22:51 Arten der Adaption
    0:27:13 Batch vs. Inkrementell
    0:31:17 Überwachte und Unüberwachte Adaption
    0:32:18 Training vs. Normalisierung
    0:33:07 Merkmals vs. Modelladaption
    0:36:23 Anwendung der Transformation
    0:37:27 Optimierungskriterien zur Schätzung
    0:39:40 Adaptionsmethoden
    0:42:43 Vokaltraktlängen-normalisierung (VTLN)
    0:52:39 VTLN: Experimente
    0:58:53 Inkrementelle Adaption
    1:05:06 Verschiedenes zu VTLN
    1:08:48 MAP Adaption
    1:14:37 Maximum Likelihood Linear Regression (MLLR)
    1:17:54 Finden von Klassen
    1:20:11 Label Boosting mit MLLR
    1:21:48 Welche Adaption unter welchen Bedingungen
    1:23:14 fMLLR

    • 1 hr 25 min
    • video
    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 03.02.2016, Vorlesung 21

    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 03.02.2016, Vorlesung 21

    21: Vorlesung |
    0:00:00 Starten
    0:00:10 Suche
    0:00:29 N-Besten Suche
    0:01:50 Probleme mit n besten Listen
    0:02:54 Wortgraphen
    0:04:14 Zusammenfassung Beschleunigungstechniken
    0:06:00 Mehrpass Suchen
    0:06:55 Beispiel: IBIS Single Pass Decoder
    0:11:18 Consensus Decoding
    0:13:01 Bsp: MAP vs. Wort-Posteriori-W´keiten
    0:16:36 Minimierung des Wortfehlers
    0:19:28 Approximierung mit N-besten Listen
    0:21:36 WER Minimierung auf Wortgraphen
    0:24:26 Multiple Alignment WER
    0:29:19 Finden des globalen Alignment
    0:30:50 Multiple Alignment WER
    0:32:37 Alignment als Äquivalenzrelation
    0:34:37 Finden einer angemessenen Äquivalenzrelation
    0:36:38 Intra-Wort-Clustern
    0:38:44 Pruning
    0:40:37 Confusionsnetzwerke
    0:42:28 Multiple Alignment WER
    0:43:03 Confusionsnetzwerke
    0:43:26 Confusionsnetzwer-Hypothese
    0:45:16 Multiple Alignment WER
    0:45:53 Experimente
    0:47:58 Systemkombination
    0:49:14 Systemkombination mit ROVER
    0:50:27 Alignierung vieler Hypothesen mittels DP
    0:51:49 Beispiel

    • 59 min
    • video
    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 01.02.2016, Vorlesung 20

    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 01.02.2016, Vorlesung 20

    20: Vorlesung |
    0:00:00 Starten
    0:00:19 Suchstrategien
    0:01:25 Tiefensuche vs. Breitensuche
    0:01:57 Heuristische Graphsuche
    0:02:45 Zeitasynchrone Suche mit A*
    0:04:15 Zeitsynchrone Strahlsuche
    0:10:31 Beams in ASR
    0:12:13 Beam vs. WER
    0:15:45 Kontinuierliche Suchräume, gleichverteiltes Sprachmodell
    0:20:59 Suchraum mit Uni-Gramm
    0:23:03 Suchraum mit Bi-Grammen
    0:26:32 Suchraum mit Tri-Grammen
    0:33:48 Viterbi Decoding
    0:40:42 A* mit Stack Decoder
    0:42:50 Heuristik für A*
    0:44:43 Fast Match
    0:47:36 Vor- und Nachteile eines Stackdecoders
    0:51:10 A* vs. Strahlsuche
    0:52:39 Vermeidung von Redundanzen
    0:54:44 Baumsuche
    0:57:30 Baumsuche mit Sprachmodell
    0:59:04 Delayed Bi-Grams
    1:01:51 Einsparung durch Baum-Lexica
    1:05:41 Kopien von Suchbäumen
    1:10:36 Suche mit kontextabhängigen Modellen
    1:13:38 Baumsuche mit kontextabhängigen Modellen
    1:16:45 N-Besten Suche

    • 1 hr 23 min
    • video
    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 27.01.2016, Vorlesung 19

    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 27.01.2016, Vorlesung 19

    19: Vorlesung |
    0:00:00 Starten
    0:00:14 Erinnerung: Fundamentalformel
    0:02:20 Deterministische Sprachmodelle
    0:05:42 Repräsentation der Grammatik
    0:07:18 Formale Sprachtheorie
    0:09:35 Chomsky Hierarchie
    0:11:42 Chartparsing
    0:14:29 Probabilistische CFGs
    0:19:56 Probleme mit Erkennungsfehlern
    0:24:06 Kombination von Sprachmodell und Akustischem Modell
    0:33:35 Suche
    0:35:46 Erinnerung: Fundamentalformel
    0:37:15 Suche in der Spracherkennung
    0:42:46 Erinnerung DTW und One-Stage-DP
    0:44:02 Suche im Allgemeinen
    0:46:51 Suche mit DP und Heuristik
    0:48:19 Kenngrößen für Suchprobleme
    0:50:18 Forward-/Backward-/bidirektionale Suche
    0:51:51 Explizite vs. Implizite Implementierung
    0:53:42 Blinde Suche
    0:55:24 Suchstrategien
    0:58:29 Tiefensuche vs. Breitensuche
    1:00:41 Heuristische Graphsuche
    1:03:40 Zeitasynchrone Suche mit A*

    • 1 hr 11 min
    • video
    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 25.01.2016, Vorlesung 18

    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 25.01.2016, Vorlesung 18

    18: Vorlesung |
    0:00:00 Starten
    0:00:37 Graphembasierte Spracherkennung
    0:06:48 Eignung von Graphemen
    0:14:38 Verteilung von Schriften
    0:16:21 Verteilung der Schriftsysteme
    0:17:12 Eignung von Graphemen
    0:18:10 Beispiele für schlechte Korrespondenz
    0:19:32 Graphembasierte ASR für Arabisch
    0:20:19 Englisch, Deutsch, Russisch, Spanisch, Thai
    0:21:12 Kontextabhängige Modelle für Grapheme ASR
    0:23:10 Flexibler Clusterbaum für Grapheme
    0:24:20 Praktische Probleme
    0:27:13 Spracherkennung bei ungeschriebenen Sprachen
    0:30:13 Plansprachen (Exkurs)
    0:32:23 Esperanto
    0:35:15 Esperanto und ASR
    0:35:59 Toki Pona
    0:37:55 Toki Pona und ASR
    0:38:40 Entwurf einer Sprache für ASR
    0:40:45 Entwurf von Ziffernwörtern
    0:42:42 Ergebnis
    0:43:49 ASR für Roboter Interaktion
    0:47:01 ASR für Roboter Interaktion (Ausblick)

    • 50 min
    • video
    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 18.01.2016, Vorlesung 17

    Grundlagen der automatischen Spracherkennung, WS 2015/2016, gehalten am 18.01.2016, Vorlesung 17

    17: Vorlesung |
    0:00:00 Starten
    0:00:13 Kurze Wiederholung der letzten Vorlesung
    0:04:16 Kneser-Ney Backoff
    0:08:07 Schätzung von Beta - Margnialisierung
    0:16:51 Leaving-One-Out Beta Schätzung
    0:19:04 Ergebnisse von Kneser-Ney
    0:20:27 Qualität von Sprachmodellen
    0:23:21 Entropie einer Wortquelle
    0:26:29 Perplexität von Sprachmodellen
    0:35:16 Perplexität und Akustik
    0:38:02 Klassenbasierte Sprachmodelle
    0:44:08 Aussprachevarianten
    0:45:58 Multiworte
    0:47:59 Besondere Arten von Sprachmodellen
    0:48:44 Interpolierte Sprachmodelle
    0:53:56 Cache Sprachmodelle
    0:57:49 Trigger Sprachmodelle
    1:00:06 Mehrschichtige Sprachmodelle
    1:01:56 Verzahnte Sprachmodelle
    1:04:26 Morphembasierte Sprachmodelle
    1:10:31 Entscheidungsbäume
    1:12:02 HMMs für Modellierung
    1:13:57 Probleme mit Spontaner Sprache
    1:18:11 Probleme mit unbekannten Wörtern
    1:20:34 Besonderheiten verschiedener Sprachen

    • 1 hr 23 min

Top Podcasts In Education

Joe Dispenza Meditations
Vik-Thor
TED Talks Daily
TED
American English Podcast
Sonoro | Shana Thompson
Hypnosis With Joseph Clough
Joseph Clough
ALC Vocabulary
Цогтын Батболд
6 Minute English
BBC Radio

More by Karlsruher Institut für Technologie

Kulturwissenschaft gestern und morgen
Karlsruher Institut für Technologie (KIT)
Fossile Rohstoffe ade! Forschung auf dem Weg in die Bioökonomie
Karlsruher Institut für Technologie (KIT)
Forschungspodcast »Selbstbewusste KI«
Karlsruher Institut für Technologie (KIT)
WIKA Workshop 2018: Models of future cultural relations
Karlsruher Institut für Technologie (KIT)
Thorium: Atomkraft ohne Risiko?
Karlsruher Institut für Technologie (KIT)
KI Science Film Festival
Karlsruher Institut für Technologie (KIT)