AI 字幕產生器
上傳音訊或影片檔案以生成字幕

AI 字幕產生器:免費線上 SRT 及 VTT 字幕建立工具


需要為您的影片或音訊檔案產生字幕嗎?我們的 AI 字幕產生器使用 OpenAI 的 Whisper 模型,自動建立具有精確時間戳記的 SRT 和 VTT 字幕檔案。透過專業的格式化控制項微調您的輸出——設定每行字元數和每個提示行數,以獲得符合廣播標準的字幕。一切都在您的瀏覽器中本機執行——無需上傳、無需帳號,您的媒體享有完整的隱私保護。

什麼是字幕產生器?它如何運作?

字幕產生器將語音音訊轉換為計時文字檔案,可疊加在影片內容上。與簡單的轉錄不同,字幕產生器會產生精確時間戳記的片段,並按照產業標準格式化——可直接匯入影片編輯器、上傳至 YouTube 或嵌入網頁中。

我們的工具使用 Whisper,這是 OpenAI 最先進的自動語音辨識模型,以 680,000 小時的多語言音訊資料進行訓練。它以 30 秒為區塊處理音訊,為每個句子片段產生具有精確開始和結束時間戳記的文字。您可以即時觀看字幕的產生過程,然後匯出為 SRT 或 VTT 格式。

如何產生字幕:逐步指南

使用我們的免費 AI 字幕產生器只需幾個步驟:

  1. 選擇語音語言:從下拉選單中選擇音訊中所說的語言(預設為英語)
  2. 上傳檔案:將音訊或影片檔案拖放到放置區域,或點擊瀏覽
  3. 觀看即時產生:AI 模型在首次使用時載入(後續造訪會使用快取),然後處理您的媒體——字幕文字會即時顯示,並附有進度指示器
  4. 設定格式:選擇 SRT 或 VTT 格式,調整每行字元數(預設 42)和每個提示行數(預設 2)以適配您的目標平台
  5. 檢閱與編輯:切換到編輯器分頁以修正產生的字幕中的任何錯誤
  6. 匯出:將字幕複製到剪貼簿或儲存為 .srt/.vtt 檔案——建議的檔案名稱與您的來源檔案相符,以便 VLC 等影片播放器自動偵測字幕

SRT 與 VTT:您該使用哪種字幕格式?

我們的工具支援兩種最廣泛使用的字幕檔案格式。您可以即時在它們之間切換,無需重新處理——相同的時間戳記資料會即時重新格式化:

  • SRT (SubRip Text):最通用的字幕格式。使用編號項目搭配逗號分隔的毫秒(00:00:01,500)。幾乎相容所有影片播放器、編輯器和平台,包括 YouTube、Premiere Pro、DaVinci Resolve 和 VLC。當您需要最大相容性時,請選擇 SRT
  • VTT (WebVTT):為 HTML5 影片設計的網頁原生字幕格式。使用 WEBVTT 標頭和點號分隔的毫秒(00:00:01.500)。HTML5 <track> 元素所需,常用於網頁平台。當您要在網頁或網頁應用程式中嵌入字幕時,請選擇 VTT

專業字幕格式化控制

與基本的字幕產生器不同,我們的工具讓您可以控制字幕的格式化方式——這對於製作可讀性高、專業品質的字幕至關重要:

  • 每行字元數(預設:42):控制每行字幕的最大寬度。廣播標準為 42 個字元——足夠寬以便閱讀,又足夠短以適合螢幕而不遮擋影片。較長的句子會在單字邊界自動換行,如果句子超出行數限制,則會拆分為多個具有插值時間戳記的提示。
  • 每個提示行數(預設:2):控制每個字幕條目可以有多少行。兩行是電視和串流媒體的標準。使用 1 行可獲得簡約、不顯眼的外觀,或使用 3 行處理講座等密集內容。當換行文字超過此限制時,會自動建立額外的提示,並按比例計算時間。

這些設定會立即套用到預覽和匯出的檔案——隨時可以變更,無需重新處理。

我們的 AI 字幕產生器的主要功能

  • 即時串流:在解碼過程中即時看到字幕文字——無需等待整個檔案處理完畢
  • 即時格式切換:隨時在 SRT 和 VTT 之間切換——無需重新處理
  • 智慧換行:較長的句子會自動拆分為多個具有插值時間戳記的提示,遵循您的每行字元數和每個提示行數設定
  • 內建編輯器:切換到編輯器分頁以修正錯誤、調整文字或在匯出前微調字幕
  • 翻譯為英語:啟用 "Translate to English" 核取方塊,即可從非英語音訊產生英語字幕
  • VLC 相容檔案名稱:儲存對話方塊會建議與您的來源影片相同的檔案名稱——將 .srt 檔案放在影片旁邊,VLC 即可自動載入
  • 精確時間戳記:每個字幕片段都包含精確的開始和結束時間,源自 Whisper 模型基於注意力機制的對齊

AI 字幕產生的常見使用案例

內容創作者、教育工作者和企業將 AI 產生的字幕用於廣泛的用途:

  • YouTube 影片:產生 SRT 檔案並透過 YouTube Studio 上傳為自訂字幕(字幕 → 新增語言 → 上傳檔案 → "With timing")。自訂字幕取代 YouTube 通常不準確的自動字幕,提升無障礙性、觀眾留存率和 SEO——YouTube 會為搜尋排名建立字幕文字索引。
  • 社群媒體內容:為 Instagram Reels、TikTok 和 Facebook 影片建立字幕。超過 80% 的社群媒體影片是在靜音狀態下觀看的——字幕對於互動至關重要。
  • 線上學習與培訓:為教育影片、線上課程、講座和企業培訓教材新增字幕,以符合無障礙要求並提升理解力。
  • Podcast 與網路研討會:為影片 Podcast 和錄製的網路研討會產生字幕檔案,提升無障礙性和可發現性。
  • 影片編輯工作流程:將 SRT/VTT 檔案匯入 Premiere Pro、DaVinci Resolve、Final Cut Pro 或 CapCut 作為起點——比從頭打字快得多。
  • 無障礙合規:透過為您網站或應用程式上的所有影片內容提供字幕,以符合 WCAG 2.1、ADA 和第 508 條款的要求。
  • 外語翻譯:使用翻譯功能從外語音訊產生英語字幕——適用於為國際內容製作字幕。
  • 本機影片播放:以與您的影片檔案相同的名稱儲存 .srt 檔案——VLC、MPC-HC 和 mpv 等播放器會自動載入對應的字幕檔案。

AI 字幕產生管線的工作原理

對於有技術興趣的使用者,以下是您上傳檔案時發生的詳細流程:

步驟 1:音訊擷取與前處理

上傳的檔案使用 Web Audio API 進行解碼。對於影片檔案(MP4、WebM、MOV、AVI),音軌會自動擷取。音訊會重新取樣為 16kHz 單聲道——這是 Whisper 所需的格式——並轉換為 Float32Array 的 PCM 樣本。

步驟 2:分塊處理與串流

較長的音訊會自動拆分為 30 秒的區塊,並有 5 秒的重疊步幅。每個區塊處理時,解碼的文字會透過 WhisperTextStreamer 即時串流到使用者介面,因此您可以看到文字在產生時即時顯示。

步驟 3:Whisper 推論與時間戳記

每個音訊區塊會轉換為對數梅爾頻譜圖,並輸入 Whisper 編碼器-解碼器轉換器。模型以自迴歸方式產生文字標記並附帶時間戳記標記,同時產生轉錄文字和每個句子片段的精確時間資訊。

步驟 4:字幕格式化與提示拆分

原始的帶時間戳記區塊會格式化為您選擇的輸出格式(SRT 或 VTT)。較長的句子會在單字邊界換行,遵循每行字元數的設定。當換行文字超出每個提示行數的限制時,區塊會被拆分為多個具有按比例插值時間戳記的提示——確保每個提示在正確的時間顯示。

了解 Whisper AI 模型

我們的工具使用 Whisper Base,這是一個針對瀏覽器部署最佳化的基於轉換器的編碼器-解碼器模型:

  • 架構:端對端訓練的編碼器-解碼器轉換器,用於語音辨識,使用對數梅爾頻譜圖輸入特徵
  • 模型大小:量化 ONNX 格式約 150 MB——在準確度和下載大小之間取得平衡,適合瀏覽器使用
  • 訓練資料:以從網路收集的 680,000 小時多語言和多任務監督式資料進行訓練
  • 語言支援:支援超過 30 種語言的轉錄,包括英語、西班牙語、法語、德語、中文、日語、韓語、俄語、阿拉伯語等
  • 時間戳記精度:產生句子層級的時間戳記,對於精確的字幕計時和提示拆分至關重要
  • 延遲載入:模型僅在您首次上傳檔案時下載(不在頁面載入時),並快取在瀏覽器中以便未來造訪時即時存取

支援的音訊和影片格式

本工具接受多種媒體檔案格式:

  • 音訊:MP3、WAV、OGG、FLAC、AAC、WMA、M4A、WebM 音訊
  • 影片:MP4、WebM、MOV、AVI——音軌會自動擷取以進行字幕製作

所有音訊在內部都會轉換為 16kHz 單聲道 PCM 格式,以獲得最佳的 Whisper 效能。Web Audio API 會自動處理格式轉換和重新取樣。

免費線上字幕產生器:隱私與安全

完整的隱私保護

我們的免費 AI 字幕產生器使用 Transformers.js 搭配 WebGPU 加速(WASM 備援)在您的瀏覽器中本機處理所有推論。音訊或影片絕不會上傳至伺服器、不會進行雲端處理、也不需要帳號。Whisper 模型(約 150 MB)僅需下載一次,並快取在您的瀏覽器中,以便所有後續造訪時即時存取。

AI 字幕產生器與替代方案的比較

方案優點缺點最適合
AI 字幕產生器(本工具)快速、免費、30+ 種語言、隱私保護、格式化控制、SRT & VTT嘈雜音訊可能需要手動修正有隱私需求的快速字幕製作
手動製作字幕完美準確度、完全的時間控制極度緩慢(5-10 倍即時時間)、成本高專業廣播或電影字幕
雲端字幕服務高準確度、說話者標籤、自動標點音訊上傳至第三方伺服器、需訂閱費用不需考慮隱私的企業用途
YouTube 自動字幕免費、已上傳影片自動產生僅適用於 YouTube、匯出選項有限、品質不穩定準確度要求不高的 YouTube 專屬內容

常見問題

AI 模型有多大?下載需要多長時間?

Whisper 模型大約 150 MB。它僅在您首次上傳檔案時才會下載——不是在頁面載入時。下載時間取決於您的連線速度——通常需要 15 秒到一分鐘。首次下載後,模型會快取在您的瀏覽器中,所有後續造訪都會即時載入。

字幕產生需要多長時間?

在配備 WebGPU 的現代硬體上,Whisper 處理音訊的速度快於即時——60 秒的錄音通常只需 5-10 秒即可產生字幕。您可以即時觀看文字在解碼過程中的顯示,並有進度指示器顯示整體完成度。

我可以在 SRT 和 VTT 之間切換而無需重新處理嗎?

可以。格式切換會立即將相同的時間戳記資料轉換為 SRT 和 VTT 格式。無需重新處理——這純粹是格式變更。您的格式設定(每行字元數、每個提示行數)在格式切換時會保留。

每行字元數和每個提示行數的設定有什麼作用?

每行字元數(預設 42)控制每行字幕的寬度——42 是廣播標準。每個提示行數(預設 2)控制每個字幕條目可以有多少行——2 是電視和串流媒體的標準。當句子太長時,工具會自動將其拆分為多個具有正確插值時間戳記的提示。

VLC 可以自動載入產生的字幕嗎?

可以。當您儲存時,工具會建議與您的來源影片相同的檔案名稱,並附上 .srt 或 .vtt 副檔名。將字幕檔案放在與影片相同的資料夾中——VLC 和大多數其他影片播放器會自動偵測並載入。

我可以將音訊翻譯為英語字幕嗎?

可以。啟用 "Translate to English" 核取方塊,讓 Whisper 將非英語語音直接翻譯為具有精確時間戳記的英語字幕。這是 Whisper 模型的內建功能。

我的檔案會被上傳到任何地方嗎?

不會。您的媒體絕不會離開您的裝置。所有處理——音訊解碼、AI 推論、時間戳記產生和字幕格式化——完全在您的瀏覽器中進行。任何環節都不涉及伺服器。

我可以編輯產生的字幕嗎?

可以。切換到編輯器分頁進行修正、調整文字或完善產生的字幕。編輯器提供一個獨立的可編輯副本——您原始產生的字幕會保留在字幕分頁中。

支援哪些語言?

本工具支援超過 30 種語言,包括英語、西班牙語、法語、德語、義大利語、葡萄牙語、俄語、中文、日語、韓語、阿拉伯語、印地語等。您必須從下拉選單中選擇語音語言——您選擇的語言會告訴 AI 預期的語言。

可以離線使用嗎?

在初次下載模型後,本工具可以使用本機儲存的檔案,無需網路連線。模型會快取在您的瀏覽器儲存空間中。

關於準確度的說明

AI 字幕產生對清晰的語音能產生高度準確的結果,但並非完美。背景噪音、濃重口音、多人同時說話和特定領域的術語可能會降低準確度。對於重要的使用場景,請使用內建的編輯器來檢閱和修正字幕。格式化控制(每行字元數、每個提示行數)有助於確保您的字幕符合專業顯示標準,無論內容為何。

為什麼選擇我們的免費 AI 字幕產生器?

  • 完整隱私:所有 AI 處理都在您的瀏覽器中本機進行——媒體絕不會上傳至任何伺服器
  • SRT & VTT 支援:業界標準字幕格式,可即時切換
  • 專業格式化:可設定每行字元數和每個提示行數,以獲得符合廣播標準的字幕
  • 智慧提示拆分:較長的句子自動拆分為多個具有插值時間戳記的提示
  • 最先進的 AI:OpenAI Whisper 模型,提供高準確度的語音辨識和時間戳記
  • 即時串流:在解碼過程中即時觀看字幕的顯示——無需等待整個檔案
  • 30+ 種語言:產生超過 30 種語言的字幕,並可翻譯為英語
  • 內建編輯器:在匯出前修正錯誤和完善字幕
  • VLC 自動偵測:對應的檔案名稱建議,讓影片播放器自動載入字幕
  • 無需帳號:無需註冊、無需登入、無使用限制
  • 音訊與影片:接受音訊檔案(MP3、WAV、OGG、FLAC)和影片檔案(MP4、WebM、MOV)
  • WebGPU 加速:可用時使用 GPU 加速以加快處理速度
  • 模型快取:一次性下載,所有後續造訪即時載入