Kilometer 7.794. In der sechsten Episode des AIne Ahnung-Podcasts erforscht der Gastgeber Adam das Thema Speech-to-Text. Adam teilt seine Erfahrungen mit der Automatisierung des Podcasting-Prozesses und startet mit einer persönlichen Beobachtung. Er befindet sich gerade im Auto, was zu einigen Hintergrundgeräuschen führt, und nutzt die Zeit zwischen Arbeit und Zuhause, um diese kurze Episode aufzunehmen. Adam gesteht, dass er von Natur aus ein fauler Mensch ist und bereits versucht hat, den Podcast-Prozess zu automatisieren. Bisher war es jedoch immer ein langwieriger Prozess, den Podcast aufzunehmen, zu bearbeiten, ein Intro hinzuzufügen und die Show-Notizen zusammenzustellen. Eine Idee, die Adam bereits in der vorherigen Episode hatte, war die Verwendung einer Speech-to-Text-Engine, um den Podcast zu transkribieren. In der vorherigen Episode hat er IBM Watson dafür genutzt und wollte diese Idee weiterverfolgen. Jetzt hat er sich für OpenAI's Whisper achieve entschieden. Adam erklärt, dass er ungefähr vier Stunden damit verbracht hat, alles einzurichten. Er hat OpenAI's Whisper-Modellsoftware auf seinem Windows 11-System in einem Subsystem für Linux installiert. Er hat experimentiert und festgestellt, dass das kleine Modell bereits gute Ergebnisse liefert. Dadurch entfällt für ihn die zeitaufwendige Aufgabe, den Text für jede Episode manuell zu transkribieren. Stattdessen kann er die AI-Tools nutzen, um den transkribierten Text zu generieren. Adam erwähnt, dass er den generierten Text dann durch ChatGPT schickt und den AI-Agenten bittet, eine Zusammenfassung der Episode zu erstellen. Diese Zusammenfassung wird dann zur Beschreibung der Episode verwendet. Es ist ein einfacher Ansatz, den Adam gewählt hat, der jedoch mit einer gewissen Vorbereitungszeit verbunden war. Ein weiteres Problem, dem Adam begegnet ist, ist die Aufnahmequalität des Podcasts. Da er kein Studio-Mikrofon verwendet und sich im Auto befindet, ist die Klangqualität nicht optimal. Hier kommt Adobe Enhance zur Hilfe. Adam hat die AI von Adobe genutzt, um eine Audio-Datei hochzuladen und Störgeräusche und eingeschränkte Qualität zu entfernen. Die Sprachqualität wird verbessert, und nach wenigen Minuten kann er eine qualitativ hochwertigere Datei herunterladen. Adam ist mit dem Ergebnis zufrieden und freut sich, dass er keine manuellen Anpassungen oder Unterdrückungsmaßnahmen mehr vornehmen muss. Adam betont, dass diese KI-Tools noch in einem Beta-Stadium sind, aber er findet die Ergebnisse bereits beeindruckend. Er muss sich nun nicht mehr um die Transkription des Textes oder die Verbesserung der Klangqualität kümmern. Diese Aufgaben werden von den KI-Tools kostenlos erledigt. Abschließend erwähnt Adam, dass er bereits einige Tipps von ChatGPT erhalten hat, wie er den Podcast-Feed am besten vorbereiten kann. Einer der nächsten Schritte wird die Veröffentlichung der Episoden sein.