Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung

Karlsruher Institut für Technologie (KIT)
Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt. Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen. Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können. Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

  1. 16.02.2017 · ВИДЕО

    Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2016/17, 06.02.2017, 19

    0:00:00 Starten 0:00:16 Minimierung des Wortfehlers 0:02:50 Approximierung mit N-besten Listen 0:04:06 WER Minimierung auf Wortgraphen 0:04:18 Multiple Alignment WER 0:07:03 Finden des globalen Alignment 0:08:21 Alignment als Äquivalenzrelation 0:09:44 Finden einer angemessenen Äquivalenzrelation 0:12:02 Intra-Wort-Clustern 0:14:58 Pruning 0:15:45 Confusionsnetzwerke 0:18:20 Confusionsnetzwer-Hypothese 0:19:20 Eyperimente 0:23:03 Systemkombination 0:25:00 Systemkombination mit ROVER 0:28:33 Alignierung vieler Hypothesen mittlels DP 0:29:30 Beispiel 0:30:46 Mehrheitsentscheidung 0:31:25 Experimente 0:34:28 Probleme mit EM Training 0:38:06 Korrektives Training 0:41:22 Diskriminatives Training 0:43:00 Maximierung der Posterioriw'keit 0:43:41 Transformation / Mutual Information 0:45:14 Maximum Mutual Information Estimation (MMIE) 0:47:52 MLE vs. MMIE 0:50:35 MMIE Implementierung 0:51:20 MMIE Optimierung 0:52:16 Erweiterte Baum-Welch Regeln 0:54:59 MMIE Trainingsprozedur 0:57:21 Ergebnisse 0:58:00 MWE/MCE Training 1:07:31 Neue-Worte-Problem 1:09:31 Ansätze 1:11:02 Häufigkeitsverteilung von Wörtern 1:12:46 Herausvorderungen bei der OOV Detektion 1:14:11 OOV Wörtermodelle im AM 1:15:37 AM 1:16:03 OOV Wörtermodelle LM 1:17:49 Automatisches Clustern 1:18:06 Beispiele 1:19:36 Genauigkeit OOV Detektion 1:21:01 Lernen der neuen Wörter 1:21:32 Beispiel Lerndialog

    1 ч. 24 мин.

Об этом подкасте

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt. Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen. Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können. Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

Еще от провайдера «Karlsruher Institut für Technologie»

Чтобы прослушивать выпуски с ненормативным контентом, войдите в систему.

Следите за новостями подкаста

Войдите в систему или зарегистрируйтесь, чтобы следить за подкастами, сохранять выпуски и получать последние обновления.

Выберите страну или регион

Африка, Ближний Восток и Индия

Азиатско-Тихоокеанский регион

Европа

Латинская Америка и страны Карибского бассейна

США и Канада