Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung

Karlsruher Institut für Technologie (KIT)
Grundlagen der Automatischen Spracherkennung, WS16/17, Vorlesung

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt. Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen. Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können. Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

  1. 2017. 02. 16. · 비디오

    Grundlagen der Automatischen Spracherkennung, Vorlesung, WS 2016/17, 06.02.2017, 19

    0:00:00 Starten 0:00:16 Minimierung des Wortfehlers 0:02:50 Approximierung mit N-besten Listen 0:04:06 WER Minimierung auf Wortgraphen 0:04:18 Multiple Alignment WER 0:07:03 Finden des globalen Alignment 0:08:21 Alignment als Äquivalenzrelation 0:09:44 Finden einer angemessenen Äquivalenzrelation 0:12:02 Intra-Wort-Clustern 0:14:58 Pruning 0:15:45 Confusionsnetzwerke 0:18:20 Confusionsnetzwer-Hypothese 0:19:20 Eyperimente 0:23:03 Systemkombination 0:25:00 Systemkombination mit ROVER 0:28:33 Alignierung vieler Hypothesen mittlels DP 0:29:30 Beispiel 0:30:46 Mehrheitsentscheidung 0:31:25 Experimente 0:34:28 Probleme mit EM Training 0:38:06 Korrektives Training 0:41:22 Diskriminatives Training 0:43:00 Maximierung der Posterioriw'keit 0:43:41 Transformation / Mutual Information 0:45:14 Maximum Mutual Information Estimation (MMIE) 0:47:52 MLE vs. MMIE 0:50:35 MMIE Implementierung 0:51:20 MMIE Optimierung 0:52:16 Erweiterte Baum-Welch Regeln 0:54:59 MMIE Trainingsprozedur 0:57:21 Ergebnisse 0:58:00 MWE/MCE Training 1:07:31 Neue-Worte-Problem 1:09:31 Ansätze 1:11:02 Häufigkeitsverteilung von Wörtern 1:12:46 Herausvorderungen bei der OOV Detektion 1:14:11 OOV Wörtermodelle im AM 1:15:37 AM 1:16:03 OOV Wörtermodelle LM 1:17:49 Automatisches Clustern 1:18:06 Beispiele 1:19:36 Genauigkeit OOV Detektion 1:21:01 Lernen der neuen Wörter 1:21:32 Beispiel Lerndialog

    1시간 24분

소개

Die Vorlesung erläutert den Aufbau eines modernen Spracherkennungssystems. Der Aufbau wird dabei motiviert ausgehend von der Produktion menschlicher Sprache und ihrer Eigenschaften. Es werden alle Verarbeitungsschritte von der Signalverarbeitung über das Training geeigneter, statistischer Modelle, bis hin zur eigentlichen Erkennung ausführlich behandelt. Dabei stehen statistische Methoden, wie sie in aktuellen Spracherkennungssystemen verwendet werden, im Vordergrund. Somit wird der Stand der Technik in der automatischen Spracherkennung vermittelt. Ferner werden alternative Methoden vorgestellt, aus denen sich die aktuellen entwickelt haben und die zum Teil noch in spezialisierten Fällen in der Spracherkennung zum Einsatz kommen. Anhand von Beispielanwendungen und Beispielen aus aktuellen Projekten wird der Stand der Technik und die Leistungsfähigkeit moderner Systeme veranschaulicht. Zusätzlich zu den grundlegenden Techniken wird auch eine Einführung in die weiterführenden Techniken automatischer Spracherkennung geben, um so zu vermitteln, wie moderne, leistungsfähige Spracherkennungssysteme trainiert und angewendet werden können. Literaturhinweise: Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing, Prentice Hall, NJ, USA, 2001 Fredrick Jelinek (editor), Statistical Methods for Speech Recognition, The MIT Press,1997, Cambridge, Massachusetts, London, England.

Karlsruher Institut für Technologie의 콘텐츠 더 보기

무삭제판 에피소드를 청취하려면 로그인하십시오.

이 프로그램의 최신 정보 받기

프로그램을 팔로우하고, 에피소드를 저장하고, 최신 소식을 받아보려면 로그인하거나 가입하십시오.

국가 또는 지역 선택

아프리카, 중동 및 인도

아시아 태평양

유럽

라틴 아메리카 및 카리브해

미국 및 캐나다