Falls ihr euch nicht an die großen Streaminganbieter bindet (womöglich auch entnervt von immer mehr Werbung und steigenden Preisen), sondern eure Filme und Serien, sagen wir mal, auf anderem Wege besorgt, werdet ihr vermutlich schonmal in Berührung mit Dateien für Untertitel gekommen sein.
Die enthalten nicht nur die Texte der gesprochenen Dialoge, sondern eben auch die entsprechenden Zeitstempel, damit sie genau an der richtigen Stelle angezeigt werden. Das kann zu einer ziemlich nervigen Angelegenheit werden, denn Video- und Untertiteldatei müssen perfekt aufeinander abgestimmt sein.
Hier schafft KI womöglich bald Abhilfe und könnte solche Untertitel-Dateien (oft im .srt-Format) in Zukunft völlig obsolet machen. Der kostenlose Videoplayer VLC, der nicht nur ewig lang am Markt ist, sondern in den Augen vieler der beste ist, hat vor kurzem die Marke von 6 Milliarden Downloads überschritten. Die Entwickler feierten diesen Meilenstein auf der CES 2025 mit der Ankündigung eines neuen Features: KI-generierte Untertitel.
Mit dieser Funktion soll VLC in Zukunft in der Lage sein, eigenständig Untertitel für Videos zu erstellen, wenn keine passende Untertiteldatei vorliegt. Dazu nutzt der Player OpenAIs Open-Source-Spracherkennungstechnologie Whisper, genauer gesagt eine in C geschriebene Abspaltung namens whisper.cpp. Das Tolle daran ist, dass die Untertitelerzeugung vollständig offline auf dem Gerät des Nutzers abläuft.
Neben der Erstellung der Untertitel wird VLC die erkannten Texte auch in Echtzeit in über 100 Sprachen übersetzen können. Doppelt praktisch!
Vergleichbare Live-Untertitel-Funktionen gibt es bereits in einigen Betriebssystemen wie Windows, Android, iOS und macOS. Mit der Integration in VLC könnten diese aber deutlich komfortabler und breiter nutzbar werden.
Die Untertitel-Funktion ist noch nicht in der aktuellen Version von VLC enthalten. Sie soll aber in eines der nächsten Updates integriert werden. Schauen wir mal, ob das auch irgendwann Einzug in die mobilen Varianten der Software Einzug hält.
Whisper gibt es in verschiedenen Größen. Die kleineren Modelle funktionieren schneller, sind allerdings oft (vor allem in anderen Sprachen als Englisch) nicht so gut, die größeren brauchen länger und mehr Rechenleistung, aber sind genauer. Ich bin gespannt, wie gut die Integration in VLC aussehen wird.
via gHacks