Welches KI-Modell verwendet der Untertitelgenerator für die Transkription?

Das Tool verwendet OpenAIs Whisper-Modell, das lokal in Ihrem Browser über WebAssembly läuft. Whisper ist ein hochmodernes Spracherkennungsmodell, das auf 680.000 Stunden mehrsprachigem Audio trainiert wurde und über 99 Sprachen unterstützt.

Wird meine Audiodatei auf einen Server hochgeladen?

Nein. Das Whisper-Modell läuft vollständig in Ihrem Browser. Ihre Audiodatei verlässt niemals Ihr Gerät. Die Transkription erfolgt lokal über Ihre CPU/GPU und gewährleistet vollständige Privatsphäre.

Welche Audioformate werden unterstützt?

Das Tool akzeptiert MP3, MP4, M4A, WAV, OGG, OPUS, FLAC und WebM-Audiodateien. Bei Videodateien wird nur der Audiostream verarbeitet.

Welche Untertitelformate kann ich exportieren?

Sie können Untertitel als SRT (SubRip Subtitle), das am weitesten unterstützte Format für Videoplayer und Videobearbeitungsprogramme, oder als VTT (WebVTT) exportieren, dem Standard für Web-Video (HTML5 -Element) und Streaming-Plattformen.

Wie genau ist die automatische Transkription?

Whisper ist bei klarer Sprache in wichtigen Sprachen sehr genau. Die Genauigkeit hängt von der Audioqualität, Hintergrundgeräuschen, Akzenten der Sprecher und der Sprache ab. Klare Studioqualität-Aufnahmen auf Englisch erreichen typischerweise nahezu perfekte Genauigkeit. Verrauschte oder akzentbehaftete Sprache kann nach der Generierung eine manuelle Korrektur im Untertiteleditor erfordern.

Kann ich die Untertitel nach der Generierung bearbeiten?

Ja. Nach der Transkription können Sie den Text jedes Untertitelsegments bearbeiten, Start- und Endzeitstempel anpassen, Segmente teilen oder zusammenführen sowie einzelne Zeilen hinzufügen oder entfernen, bevor Sie exportieren.

Gibt es eine Dateigrößen- oder Dauerbeschränkung?

Es gibt keine serverseitige Beschränkung, aber sehr lange Audiodateien (über eine Stunde) können je nach Rechenleistung Ihres Geräts erhebliche Verarbeitungszeit benötigen. Das Modell läuft lokal, daher hängt die Leistung von Ihrer Hardware ab.

Kostenloser KI-Untertitel-Generator - SRT & VTT Untertitel Online

Müssen Sie Untertitel generieren für Ihre Videos oder Audiodateien? Unser KI-Untertitelgenerator verwendet OpenAIs Whisper-Modell, um automatisch SRT- und VTT-Untertiteldateien mit präzisen Zeitstempeln zu erstellen. Optimieren Sie Ihre Ausgabe mit professionellen Formatierungseinstellungen — legen Sie Zeichen pro Zeile und Zeilen pro Einblendung für sendefähige Untertitel fest. Alles läuft lokal in Ihrem Browser — kein Hochladen, keine Konten, vollständiger Datenschutz für Ihre Medien.

Was ist ein Untertitelgenerator und wie funktioniert er?

Ein Untertitelgenerator wandelt gesprochene Sprache in zeitgesteuerte Textdateien um, die über Videoinhalte eingeblendet werden können. Im Gegensatz zur einfachen Transkription erzeugen Untertitelgeneratoren präzise zeitgestempelte Segmente, die nach Industriestandards formatiert sind — bereit zum Import in Videoschnittprogramme, zum Hochladen auf YouTube oder zur Einbettung in Webseiten.

Unser Tool verwendet Whisper, OpenAIs hochmodernes automatisches Spracherkennungsmodell, das auf 680.000 Stunden mehrsprachiger Audiodaten trainiert wurde. Es verarbeitet Audio in 30-Sekunden-Abschnitten und generiert Text mit präzisen Start- und Endzeitstempeln für jedes Satzsegment. Sie können die Untertitel in Echtzeit erscheinen sehen, während sie dekodiert werden, und dann im SRT- oder VTT-Format exportieren.

Wie Sie Untertitel generieren: Schritt-für-Schritt-Anleitung

Die Verwendung unseres kostenlosen KI-Untertitelgenerators erfordert nur wenige Schritte:

Gesprochene Sprache auswählen: Wählen Sie die im Audio gesprochene Sprache aus dem Dropdown-Menü (Standard ist Englisch)
Datei hochladen: Ziehen Sie eine Audio- oder Videodatei per Drag & Drop in den Ablagebereich oder klicken Sie zum Durchsuchen
Live-Generierung beobachten: Das KI-Modell wird bei der ersten Verwendung geladen (für zukünftige Besuche zwischengespeichert) und verarbeitet dann Ihre Medien — der Untertiteltext erscheint in Echtzeit mit einer Fortschrittsanzeige
Formatierung konfigurieren: Wählen Sie SRT- oder VTT-Format, passen Sie Zeichen pro Zeile (Standard 42) und Zeilen pro Einblendung (Standard 2) für Ihre Zielplattform an
Überprüfen und bearbeiten: Wechseln Sie zum Editor-Tab, um eventuelle Fehler in den generierten Untertiteln zu korrigieren
Exportieren: Kopieren Sie die Untertitel in die Zwischenablage oder speichern Sie sie als .srt/.vtt-Datei — der vorgeschlagene Dateiname entspricht Ihrer Quelldatei für die automatische Untertitelerkennung durch Videoplayer wie VLC

SRT vs. VTT: Welches Untertitelformat sollten Sie verwenden?

Unser Tool unterstützt die zwei am weitesten verbreiteten Untertiteldateiformate. Sie können sofort zwischen ihnen wechseln, ohne erneut zu verarbeiten — dieselben Zeitstempeldaten werden spontan neu formatiert:

SRT (SubRip Text): Das am universellsten unterstützte Untertitelformat. Verwendet nummerierte Einträge mit kommaseparierten Millisekunden (00:00:01,500). Kompatibel mit praktisch allen Videoplayern, Editoren und Plattformen einschließlich YouTube, Premiere Pro, DaVinci Resolve und VLC. Wählen Sie SRT, wenn Sie maximale Kompatibilität benötigen.
VTT (WebVTT): Das web-native Untertitelformat, das für HTML5-Video entwickelt wurde. Verwendet einen WEBVTT-Header und punktseparierte Millisekunden (00:00:01.500). Erforderlich für HTML5-<track>-Elemente und häufig auf Webplattformen verwendet. Wählen Sie VTT, wenn Sie Untertitel in Webseiten oder Webanwendungen einbetten.

Professionelle Untertitel-Formatierungseinstellungen

Im Gegensatz zu einfachen Untertitelgeneratoren gibt Ihnen unser Tool die Kontrolle darüber, wie Ihre Untertitel formatiert werden — unverzichtbar für die Erstellung lesbarer, professioneller Untertitel:

Zeichen pro Zeile (Standard: 42): Steuert die maximale Breite jeder Untertitelzeile. Der Sendestandard beträgt 42 Zeichen — breit genug, um lesbar zu sein, aber kurz genug, um auf den Bildschirm zu passen, ohne das Video zu verdecken. Lange Sätze werden automatisch an Wortgrenzen umgebrochen, und wenn ein Satz das Zeilenlimit überschreitet, wird er in mehrere Einblendungen mit interpolierten Zeitstempeln aufgeteilt.
Zeilen pro Einblendung (Standard: 2): Steuert, wie viele Zeilen jeder Untertiteleintrag haben kann. Zwei Zeilen ist der TV- und Streaming-Standard. Verwenden Sie 1 Zeile für ein minimales, unauffälliges Erscheinungsbild oder 3 Zeilen für dichte Inhalte wie Vorlesungen. Wenn ein umgebrochener Satz dieses Limit überschreitet, werden automatisch zusätzliche Einblendungen mit proportional berechneten Zeiten erstellt.

Diese Einstellungen werden sofort auf die Vorschau und die exportierte Datei angewendet — ändern Sie sie jederzeit ohne erneute Verarbeitung.

Hauptfunktionen unseres KI-Untertitelgenerators

Echtzeit-Streaming: Sehen Sie den Untertiteltext erscheinen, während er dekodiert wird — kein Warten, bis die gesamte Datei verarbeitet ist
Sofortiger Formatwechsel: Wechseln Sie jederzeit zwischen SRT und VTT — keine erneute Verarbeitung erforderlich
Intelligenter Zeilenumbruch: Lange Sätze werden automatisch in mehrere Einblendungen mit interpolierten Zeitstempeln aufgeteilt, unter Berücksichtigung Ihrer Zeichen-pro-Zeile- und Zeilen-pro-Einblendung-Einstellungen
Integrierter Editor: Wechseln Sie zum Editor-Tab, um Fehler zu beheben, Text anzupassen oder Ihre Untertitel vor dem Export zu verfeinern
Ins Englische übersetzen: Aktivieren Sie das Kontrollkästchen "Translate to English", um englische Untertitel aus nicht-englischem Audio zu generieren
VLC-kompatible Dateinamen: Der Speicherdialog schlägt denselben Dateinamen wie Ihr Quellvideo vor — platzieren Sie die .srt-Datei neben Ihrem Video und VLC erkennt sie automatisch
Präzise Zeitstempel: Jedes Untertitelsegment enthält genaue Start- und Endzeiten, die aus der aufmerksamkeitsbasierten Ausrichtung des Whisper-Modells abgeleitet werden

Häufige Anwendungsfälle für KI-Untertitelgenerierung

Content-Ersteller, Pädagogen und Unternehmen nutzen KI-generierte Untertitel für vielfältige Zwecke:

YouTube-Videos: Generieren Sie SRT-Dateien und laden Sie sie als benutzerdefinierte Untertitel über YouTube Studio hoch (Untertitel → Sprache hinzufügen → Datei hochladen → "With timing"). Benutzerdefinierte Untertitel ersetzen YouTubes oft ungenaue automatische Untertitel, verbessern die Barrierefreiheit, Zuschauerbindung und SEO — YouTube indiziert Untertiteltext für Suchrankings.
Social-Media-Inhalte: Erstellen Sie Untertitel für Instagram Reels, TikTok und Facebook-Videos. Über 80 % der Social-Media-Videos werden ohne Ton angesehen — Untertitel sind essenziell für das Engagement.
E-Learning und Schulung: Fügen Sie Untertitel zu Lehrvideos, Online-Kursen, Vorlesungen und Schulungsmaterialien für Unternehmen hinzu — für Barrierefreiheit und besseres Verständnis.
Podcasts und Webinare: Generieren Sie Untertiteldateien für Video-Podcasts und aufgezeichnete Webinare, um Barrierefreiheit und Auffindbarkeit zu verbessern.
Videobearbeitungs-Workflow: Importieren Sie SRT/VTT-Dateien in Premiere Pro, DaVinci Resolve, Final Cut Pro oder CapCut als Ausgangspunkt — viel schneller als Untertitel von Grund auf zu tippen.
Barrierefreiheits-Konformität: Erfüllen Sie die Anforderungen von WCAG 2.1, ADA und Section 508, indem Sie Untertitel für alle Videoinhalte auf Ihrer Website oder Anwendung bereitstellen.
Fremdsprachenübersetzung: Generieren Sie englische Untertitel aus fremdsprachigem Audio mit der Übersetzungsfunktion — nützlich für die Untertitelung internationaler Inhalte.
Lokale Videowiedergabe: Speichern Sie die .srt-Datei mit demselben Namen wie Ihre Videodatei — Player wie VLC, MPC-HC und mpv laden passende Untertiteldateien automatisch.

Wie die KI-Untertitelgenerierungs-Pipeline funktioniert

Für technisch interessierte Nutzer hier eine Aufschlüsselung dessen, was beim Hochladen einer Datei passiert:

Schritt 1: Audioextraktion und Vorverarbeitung

Die hochgeladene Datei wird mit der Web Audio API dekodiert. Bei Videodateien (MP4, WebM, MOV, AVI) wird die Audiospur automatisch extrahiert. Das Audio wird auf 16kHz Mono umgetastet — das Format, das Whisper erwartet — und in ein Float32Array von PCM-Samples konvertiert.

Schritt 2: Abschnittsweise Verarbeitung mit Streaming

Langes Audio wird automatisch in 30-Sekunden-Abschnitte mit 5 Sekunden überlappenden Schritten aufgeteilt. Während jeder Abschnitt verarbeitet wird, werden dekodierte Wörter in Echtzeit über den WhisperTextStreamer an die Benutzeroberfläche gestreamt, sodass Sie Text erscheinen sehen, während er generiert wird.

Schritt 3: Whisper-Inferenz mit Zeitstempeln

Jeder Audioabschnitt wird in ein Log-Mel-Spektrogramm konvertiert und durch den Whisper-Encoder-Decoder-Transformer geleitet. Das Modell generiert autoregressiv Texttoken mit Zeitstempeltoken und erzeugt sowohl den transkribierten Text als auch präzise Zeitinformationen für jedes Satzsegment.

Schritt 4: Untertitelformatierung und Einblendungsaufteilung

Die rohen zeitgestempelten Abschnitte werden in Ihr gewähltes Ausgabeformat (SRT oder VTT) formatiert. Lange Sätze werden an Wortgrenzen umgebrochen, unter Berücksichtigung der Zeichen-pro-Zeile-Einstellung. Wenn der umgebrochene Text das Zeilen-pro-Einblendung-Limit überschreitet, wird der Abschnitt in mehrere Einblendungen mit proportional interpolierten Zeitstempeln aufgeteilt — so wird sichergestellt, dass jede Einblendung zum richtigen Zeitpunkt angezeigt wird.

Das Whisper-KI-Modell verstehen

Unser Tool verwendet Whisper Base, ein transformerbasiertes Encoder-Decoder-Modell, das für den Einsatz im Browser optimiert ist:

Architektur: End-to-End trainierter Encoder-Decoder-Transformer für Spracherkennung mit Log-Mel-Spektrogramm-Eingangsmerkmalen
Modellgröße: Etwa 150 MB im quantisierten ONNX-Format — ein Gleichgewicht zwischen Genauigkeit und Downloadgröße für die Browsernutzung
Trainingsdaten: Trainiert auf 680.000 Stunden mehrsprachiger und multitaskfähiger überwachter Daten, die aus dem Web gesammelt wurden
Sprachunterstützung: Unterstützt Transkription in über 30 Sprachen, darunter Englisch, Spanisch, Französisch, Deutsch, Chinesisch, Japanisch, Koreanisch, Russisch, Arabisch und viele mehr
Zeitstempelpräzision: Generiert Zeitstempel auf Satzebene, die für präzises Untertitel-Timing und Einblendungsaufteilung unerlässlich sind
Verzögertes Laden: Das Modell wird erst heruntergeladen, wenn Sie zum ersten Mal eine Datei hochladen (nicht beim Seitenaufbau), und wird in Ihrem Browser für sofortigen Zugriff bei zukünftigen Besuchen zwischengespeichert

Unterstützte Audio- und Videoformate

Das Tool akzeptiert eine Vielzahl von Mediendateiformaten:

Audio: MP3, WAV, OGG, FLAC, AAC, WMA, M4A, WebM-Audio
Video: MP4, WebM, MOV, AVI — die Audiospur wird automatisch für die Untertitelung extrahiert

Alle Audiodaten werden intern in das 16kHz-Mono-PCM-Format für optimale Whisper-Leistung konvertiert. Die Web Audio API übernimmt die Formatkonvertierung und das Resampling automatisch.

Kostenloser Online-Untertitelgenerator: Datenschutz und Sicherheit

Vollständiger Datenschutz

Unser kostenloser KI-Untertitelgenerator verarbeitet alle Inferenzen lokal in Ihrem Browser mit Transformers.js und WebGPU-Beschleunigung (WASM-Fallback). Keine Audio- oder Videodaten werden jemals auf Server hochgeladen, es findet keine Cloud-Verarbeitung statt und es ist kein Konto erforderlich. Das Whisper-Modell (~150 MB) wird einmalig heruntergeladen und in Ihrem Browser für sofortigen Zugriff bei allen zukünftigen Besuchen zwischengespeichert.

KI-Untertitelgenerator vs. alternative Ansätze

Ansatz	Vorteile	Nachteile	Am besten geeignet für
KI-Untertitelgenerator (Dieses Tool)	Schnell, kostenlos, 30+ Sprachen, privat, Formatierungseinstellungen, SRT & VTT	Manuelle Korrektur bei verrauschtem Audio möglicherweise erforderlich	Schnelle Untertitelung mit Datenschutzanforderungen
Manuelle Untertitelung	Perfekte Genauigkeit, volle Timing-Kontrolle	Extrem langsam (5-10x Echtzeit), teuer	Professionelle Sende- oder Kinountertitel
Cloud-Untertiteldienste	Hohe Genauigkeit, Sprechererkennung, automatische Zeichensetzung	Audio wird auf Server Dritter hochgeladen, Abonnementkosten	Unternehmenseinsatz, wenn Datenschutz kein Thema ist
YouTube Auto-Untertitel	Kostenlos, automatisch für hochgeladene Videos	Funktioniert nur auf YouTube, begrenzte Exportoptionen, variable Qualität	Reine YouTube-Inhalte mit geringen Genauigkeitsanforderungen

Häufig gestellte Fragen

Wie groß ist das KI-Modell und wie lange dauert der Download?

Das Whisper-Modell ist ungefähr 150 MB groß. Es wird erst heruntergeladen, wenn Sie zum ersten Mal eine Datei hochladen — nicht beim Seitenaufbau. Die Downloadzeit hängt von Ihrer Verbindungsgeschwindigkeit ab — typischerweise 15 Sekunden bis eine Minute. Nach dem ersten Download wird das Modell in Ihrem Browser zwischengespeichert und lädt bei allen folgenden Besuchen sofort.

Wie lange dauert die Untertitelgenerierung?

Auf moderner Hardware mit WebGPU verarbeitet Whisper Audio schneller als in Echtzeit — eine 60-Sekunden-Aufnahme benötigt typischerweise 5-10 Sekunden für die Untertitelung. Sie können den Text in Echtzeit erscheinen sehen, während er dekodiert wird, mit einer Fortschrittsanzeige für den Gesamtfortschritt.

Kann ich zwischen SRT und VTT wechseln, ohne erneut zu verarbeiten?

Ja. Der Formatumschalter konvertiert dieselben Zeitstempeldaten sofort zwischen SRT- und VTT-Format. Keine erneute Verarbeitung ist nötig — es handelt sich rein um eine Formatierungsänderung. Ihre Formatierungseinstellungen (Zeichen pro Zeile, Zeilen pro Einblendung) bleiben beim Formatwechsel erhalten.

Was bewirken die Einstellungen für Zeichen pro Zeile und Zeilen pro Einblendung?

Zeichen pro Zeile (Standard 42) steuert die Breite jeder Untertitelzeile — 42 ist der Sendestandard. Zeilen pro Einblendung (Standard 2) steuert, wie viele Zeilen jeder Untertiteleintrag haben kann — 2 ist Standard für TV und Streaming. Wenn ein Satz zu lang ist, teilt das Tool ihn automatisch in mehrere Einblendungen mit korrekt interpolierten Zeitstempeln auf.

Kann VLC die generierten Untertitel automatisch laden?

Ja. Beim Speichern schlägt das Tool denselben Dateinamen wie Ihr Quellvideo mit der Erweiterung .srt oder .vtt vor. Legen Sie die Untertiteldatei in denselben Ordner wie Ihr Video — VLC und die meisten anderen Videoplayer erkennen und laden sie automatisch.

Kann ich Audio ins Englische übersetzen lassen?

Ja. Aktivieren Sie das Kontrollkästchen "Translate to English", damit Whisper nicht-englische Sprache direkt in englische Untertitel mit präzisen Zeitstempeln übersetzt. Dies ist eine integrierte Fähigkeit des Whisper-Modells.

Werden meine Dateien irgendwohin hochgeladen?

Nein. Ihre Medien verlassen niemals Ihr Gerät. Die gesamte Verarbeitung — Audiodekodierung, KI-Inferenz, Zeitstempelgenerierung und Untertitelformatierung — findet vollständig in Ihrem Browser statt. Es ist zu keinem Zeitpunkt ein Server beteiligt.

Kann ich die generierten Untertitel bearbeiten?

Ja. Wechseln Sie zum Editor-Tab, um Korrekturen vorzunehmen, Text anzupassen oder die generierten Untertitel zu verfeinern. Der Editor stellt eine separate bearbeitbare Kopie bereit — Ihre ursprünglich generierten Untertitel bleiben im Untertitel-Tab erhalten.

Welche Sprachen werden unterstützt?

Das Tool unterstützt über 30 Sprachen, darunter Englisch, Spanisch, Französisch, Deutsch, Italienisch, Portugiesisch, Russisch, Chinesisch, Japanisch, Koreanisch, Arabisch, Hindi und viele mehr. Sie müssen die gesprochene Sprache aus dem Dropdown-Menü auswählen — die gewählte Sprache teilt der KI mit, welche Sprache sie erwarten soll.

Funktioniert es offline?

Nach dem ersten Modell-Download funktioniert das Tool mit lokal gespeicherten Dateien ohne Internetverbindung. Das Modell wird im Speicher Ihres Browsers zwischengespeichert.

Hinweis zur Genauigkeit

KI-Untertitelgenerierung liefert bei klarer Sprache hochgenaue Ergebnisse, ist aber nicht perfekt. Hintergrundgeräusche, starke Akzente, überlappende Sprecher und fachspezifische Terminologie können die Genauigkeit verringern. Verwenden Sie den integrierten Editor, um die Untertitel für kritische Anwendungsfälle zu überprüfen und zu korrigieren. Die Formatierungseinstellungen (Zeichen pro Zeile, Zeilen pro Einblendung) helfen sicherzustellen, dass Ihre Untertitel unabhängig vom Inhalt professionellen Anzeigestandards entsprechen.

Warum unseren kostenlosen KI-Untertitelgenerator wählen?

Vollständiger Datenschutz: Die gesamte KI-Verarbeitung findet lokal in Ihrem Browser statt — Medien werden niemals auf einen Server hochgeladen
SRT- & VTT-Unterstützung: Industriestandard-Untertitelformate mit sofortigem Wechsel
Professionelle Formatierung: Konfigurierbare Zeichen pro Zeile und Zeilen pro Einblendung für sendefähige Untertitel
Intelligente Einblendungsaufteilung: Lange Sätze werden automatisch in mehrere Einblendungen mit interpolierten Zeitstempeln aufgeteilt
Modernste KI: OpenAI Whisper-Modell für hochgenaue Spracherkennung mit Zeitstempeln
Echtzeit-Streaming: Sehen Sie Untertitel erscheinen, während sie dekodiert werden — kein Warten auf die gesamte Datei
30+ Sprachen: Generieren Sie Untertitel in über 30 Sprachen mit Übersetzung ins Englische
Integrierter Editor: Fehler beheben und Untertitel vor dem Export verfeinern
VLC-Auto-Erkennung: Passender Dateinamenvorschlag für automatisches Laden von Untertiteln in Videoplayern
Kein Konto erforderlich: Keine Registrierung, kein Login, keine Nutzungslimits
Audio & Video: Akzeptiert Audiodateien (MP3, WAV, OGG, FLAC) und Videodateien (MP4, WebM, MOV)
WebGPU-beschleunigt: Nutzt GPU-Beschleunigung, wenn verfügbar, für schnellere Verarbeitung
Modell-Caching: Einmaliger Download, sofortiges Laden bei allen zukünftigen Besuchen