AI CC ジェネレーター:無料オンライン SRT & VTT 字幕作成ツール
動画や音声ファイルの字幕を生成したいですか?当ツールのAI CC ジェネレーターは、OpenAI の Whisper モデルを使用して、正確なタイムスタンプ付きの SRT および VTT 字幕ファイルを自動作成します。プロ仕様のフォーマット設定で出力を微調整できます — 1行あたりの文字数やキューあたりの行数を設定して、放送品質の字幕を作成しましょう。すべてブラウザ内でローカル処理されるため、アップロード不要、アカウント不要、メディアの完全なプライバシーが保護されます。
字幕ジェネレーターとは?その仕組み
字幕ジェネレーターは、音声の発話をタイムコード付きのテキストファイルに変換し、動画コンテンツにオーバーレイ表示できるようにします。単純な文字起こしとは異なり、字幕ジェネレーターは業界標準に準拠した正確なタイムスタンプ付きセグメントを生成します — 動画編集ソフトへのインポート、YouTube へのアップロード、ウェブページへの埋め込みにすぐに使用できます。
当ツールは、OpenAI が開発した最先端の自動音声認識モデル Whisper を使用しています。このモデルは680,000時間の多言語音声データで学習されています。音声を30秒のチャンクに分割して処理し、各文セグメントの正確な開始・終了タイムスタンプ付きテキストを生成します。デコードされるキャプションをリアルタイムで確認でき、SRT または VTT 形式でエクスポートできます。
字幕の生成方法:ステップバイステップガイド
当ツールの無料 AI 字幕ジェネレーターの使い方は簡単です:
- 話されている言語を選択: ドロップダウンから音声で話されている言語を選択します(デフォルトは英語)
- ファイルをアップロード: 音声または動画ファイルをドロップゾーンにドラッグ&ドロップするか、クリックして参照します
- リアルタイム生成を確認: AI モデルは初回使用時に読み込まれ(以降はキャッシュされます)、メディアを処理します — 進行状況インジケーターとともにキャプションテキストがリアルタイムで表示されます
- フォーマットを設定: SRT または VTT 形式を選択し、ターゲットプラットフォームに合わせて1行あたりの文字数(デフォルト42)とキューあたりの行数(デフォルト2)を調整します
- 確認と編集: エディタータブに切り替えて、生成されたキャプションのエラーを修正します
- エクスポート: キャプションをクリップボードにコピーするか、.srt/.vtt ファイルとして保存します — 推奨ファイル名はソースファイルと一致しており、VLC などの動画プレーヤーによる字幕の自動検出に対応しています
SRT vs VTT:どちらの字幕形式を使うべきか?
当ツールは最も広く使用されている2つの字幕ファイル形式をサポートしています。再処理なしで瞬時に切り替えることができます — 同じタイムスタンプデータがその場で再フォーマットされます:
- SRT (SubRip Text): 最も広くサポートされている字幕形式です。カンマ区切りのミリ秒を持つ番号付きエントリを使用します(
00:00:01,500)。YouTube、Premiere Pro、DaVinci Resolve、VLC を含むほぼすべての動画プレーヤー、エディター、プラットフォームと互換性があります。SRT を選択するのは、最大限の互換性が必要な場合です。 - VTT (WebVTT): HTML5 動画用に設計されたウェブネイティブの字幕形式です。
WEBVTTヘッダーとドット区切りのミリ秒(00:00:01.500)を使用します。HTML5 の<track>要素に必要で、ウェブプラットフォームで一般的に使用されています。VTT を選択するのは、ウェブページやウェブアプリケーションに字幕を埋め込む場合です。
プロ仕様の字幕フォーマット設定
基本的なキャプションジェネレーターとは異なり、当ツールでは字幕のフォーマット方法を制御できます — 読みやすくプロ品質のキャプションを作成するために不可欠な機能です:
- 1行あたりの文字数(デフォルト:42): 各字幕行の最大幅を制御します。放送標準は42文字で、読みやすさを保ちながら画面上で動画を遮らない適切な幅です。長い文は単語の区切りで自動的に折り返され、行制限を超える場合は補間されたタイムスタンプで複数のキューに分割されます。
- キューあたりの行数(デフォルト:2): 各字幕エントリが持てる行数を制御します。2行はテレビおよびストリーミングの標準です。最小限の目立たない表示には1行を、講義などの密なコンテンツには3行を使用できます。折り返されたテキストがこの制限を超えると、比例計算されたタイミングで追加のキューが自動的に作成されます。
これらの設定はプレビューとエクスポートファイルの両方に即座に適用されます — 再処理なしでいつでも変更できます。
AI キャプションジェネレーターの主な機能
- リアルタイムストリーミング: デコードされるキャプションテキストがリアルタイムで表示されます — ファイル全体の処理完了を待つ必要はありません
- 瞬時の形式切り替え: SRT と VTT をいつでも切り替えられます — 再処理は不要です
- スマートな行折り返し: 長い文は、1行あたりの文字数とキューあたりの行数の設定に従い、補間されたタイムスタンプで自動的に複数のキューに分割されます
- 内蔵エディター: エディタータブに切り替えて、エクスポート前にエラーの修正、テキストの調整、キャプションの微調整ができます
- 英語への翻訳: "Translate to English" チェックボックスを有効にすると、英語以外の音声から英語のキャプションを生成できます
- VLC 互換のファイル名: 保存ダイアログではソース動画と同じファイル名が提案されます — .srt ファイルを動画の隣に配置すると、VLC が自動的に検出します
- 正確なタイムスタンプ: 各キャプションセグメントには、Whisper モデルのアテンションベースのアライメントから得られた正確な開始・終了時間が含まれます
AI キャプション生成の一般的な用途
コンテンツクリエイター、教育者、企業は、さまざまな目的で AI 生成字幕を活用しています:
- YouTube 動画: SRT ファイルを生成し、YouTube Studio 経由でカスタムキャプションとしてアップロードします(字幕 → 言語を追加 → ファイルをアップロード → "With timing")。カスタムキャプションは YouTube の不正確な自動キャプションを置き換え、アクセシビリティ、視聴者の維持率、SEO を向上させます — YouTube は検索ランキングにキャプションテキストをインデックスします。
- ソーシャルメディアコンテンツ: Instagram リール、TikTok、Facebook 動画の字幕を作成します。ソーシャルメディア動画の80%以上が無音で視聴されており、キャプションはエンゲージメントに不可欠です。
- eラーニングとトレーニング: 教育動画、オンラインコース、講義、企業研修資料にキャプションを追加し、アクセシビリティ準拠と理解度の向上を図ります。
- ポッドキャストとウェビナー: ビデオポッドキャストや録画されたウェビナーの字幕ファイルを生成し、アクセシビリティと発見可能性を向上させます。
- 動画編集ワークフロー: SRT/VTT ファイルを Premiere Pro、DaVinci Resolve、Final Cut Pro、または CapCut にインポートして出発点として使用します — ゼロから字幕を入力するよりはるかに高速です。
- アクセシビリティ準拠: ウェブサイトやアプリケーション上のすべての動画コンテンツにキャプションを提供し、WCAG 2.1、ADA、第508条の要件を満たします。
- 外国語翻訳: 翻訳機能を使用して、外国語音声から英語のキャプションを生成します — 国際的なコンテンツの字幕作成に便利です。
- ローカル動画再生: 動画ファイルと同じ名前で .srt ファイルを保存します — VLC、MPC-HC、mpv などのプレーヤーが一致する字幕ファイルを自動的に読み込みます。
AI キャプション生成パイプラインの仕組み
技術に興味のあるユーザーのために、ファイルをアップロードした際の処理の流れを説明します:
ステップ1:音声の抽出と前処理
アップロードされたファイルは Web Audio API を使用してデコードされます。動画ファイル(MP4、WebM、MOV、AVI)の場合、音声トラックが自動的に抽出されます。音声は Whisper が要求する 16kHz モノラルにリサンプリングされ、PCM サンプルの Float32Array に変換されます。
ステップ2:ストリーミングによるチャンク処理
長い音声は5秒のオーバーラップストライドを持つ30秒のチャンクに自動分割されます。各チャンクが処理されると、デコードされた単語が WhisperTextStreamer を通じてリアルタイムで UI にストリーミングされ、生成されるテキストを即座に確認できます。
ステップ3:タイムスタンプ付き Whisper 推論
各音声チャンクは対数メルスペクトログラムに変換され、Whisper のエンコーダー・デコーダートランスフォーマーに入力されます。モデルはタイムスタンプトークンと共にテキストトークンを自己回帰的に生成し、文字起こしテキストと各文セグメントの正確なタイミング情報の両方を出力します。
ステップ4:キャプションのフォーマットとキュー分割
タイムスタンプ付きの生チャンクは、選択した出力形式(SRT または VTT)にフォーマットされます。長い文は1行あたりの文字数設定に従って単語の区切りで折り返されます。折り返されたテキストがキューあたりの行数制限を超えると、チャンクは比例補間されたタイムスタンプを持つ複数のキューに分割されます — 各キューが正しいタイミングで表示されるようになります。
Whisper AI モデルについて
当ツールは、ブラウザでの実行に最適化されたトランスフォーマーベースのエンコーダー・デコーダーモデル Whisper Base を使用しています:
- アーキテクチャ: 対数メルスペクトログラム入力特徴を使用した、音声認識のためにエンドツーエンドで学習されたエンコーダー・デコーダートランスフォーマー
- モデルサイズ: 量子化された ONNX 形式で約150 MB — ブラウザ使用に適した精度とダウンロードサイズのバランス
- 学習データ: ウェブから収集された680,000時間の多言語・マルチタスク教師ありデータで学習
- 言語サポート: 英語、スペイン語、フランス語、ドイツ語、中国語、日本語、韓国語、ロシア語、アラビア語など30以上の言語での文字起こしをサポート
- タイムスタンプ精度: 正確な字幕タイミングとキュー分割に不可欠な文レベルのタイムスタンプを生成
- 遅延読み込み: モデルはページ読み込み時ではなく、初めてファイルをアップロードした時にのみダウンロードされ、以降の訪問では即座にアクセスできるようブラウザにキャッシュされます
対応する音声・動画形式
当ツールは幅広いメディアファイル形式に対応しています:
- 音声: MP3、WAV、OGG、FLAC、AAC、WMA、M4A、WebM 音声
- 動画: MP4、WebM、MOV、AVI — 字幕作成のため音声トラックが自動的に抽出されます
すべての音声は、Whisper の最適なパフォーマンスのために内部的に16kHz モノラル PCM 形式に変換されます。Web Audio API がフォーマット変換とリサンプリングを自動的に処理します。
無料オンライン字幕ジェネレーター:プライバシーとセキュリティ
完全なプライバシー保護
当ツールの無料 AI キャプションジェネレーターは、WebGPU アクセラレーション(WASM フォールバック)を使用した Transformers.js により、すべての推論をブラウザ内でローカルに処理します。音声や動画がサーバーにアップロードされることは一切なく、クラウド処理も行われず、アカウントも不要です。Whisper モデル(約150 MB)は一度ダウンロードされるとブラウザにキャッシュされ、以降のすべての訪問で即座にアクセスできます。
AI キャプションジェネレーターと他のアプローチの比較
| アプローチ | メリット | デメリット | 最適な用途 |
|---|---|---|---|
| AI CC ジェネレーター(当ツール) | 高速、無料、30以上の言語、プライバシー保護、フォーマット設定、SRT & VTT | ノイズの多い音声では手動修正が必要な場合あり | プライバシーが求められる迅速な字幕作成 |
| 手動字幕作成 | 完璧な精度、完全なタイミング制御 | 非常に遅い(実時間の5〜10倍)、高コスト | プロの放送や映画の字幕 |
| クラウド字幕サービス | 高精度、話者ラベル、自動句読点 | 音声がサードパーティサーバーにアップロードされる、サブスクリプション費用 | プライバシーが問題にならない企業利用 |
| YouTube 自動キャプション | 無料、アップロード動画に自動適用 | YouTube でのみ動作、エクスポートオプションが限定的、品質にばらつき | 精度要件の低い YouTube 専用コンテンツ |
よくある質問
AI モデルのサイズとダウンロード時間は?
Whisper モデルは約 150 MB です。ページの読み込み時ではなく、初めてファイルをアップロードした時にのみダウンロードされます。ダウンロード時間は接続速度によりますが、通常15秒から1分程度です。初回ダウンロード後、モデルはブラウザにキャッシュされ、以降の訪問では即座に読み込まれます。
字幕生成にはどのくらい時間がかかりますか?
WebGPU 対応の最新ハードウェアでは、Whisper は実時間より速く音声を処理します — 60秒の録音は通常5〜10秒で字幕が生成されます。デコード中のテキストをリアルタイムで確認でき、全体の進捗を示す進行状況インジケーターが表示されます。
再処理なしで SRT と VTT を切り替えられますか?
はい。形式切り替えトグルは、同じタイムスタンプデータを SRT 形式と VTT 形式の間で即座に変換します。再処理は不要です — 純粋にフォーマットの変更のみです。フォーマット設定(1行あたりの文字数、キューあたりの行数)は形式切り替え時にも維持されます。
1行あたりの文字数とキューあたりの行数の設定は何をしますか?
1行あたりの文字数(デフォルト42)は各字幕行の幅を制御します — 42は放送標準です。キューあたりの行数(デフォルト2)は各字幕エントリが持てる行数を制御します — 2はテレビおよびストリーミングの標準です。文が長すぎる場合、ツールは自動的に正しく補間されたタイムスタンプで複数のキューに分割します。
VLC は生成された字幕を自動的に読み込めますか?
はい。保存時に、ツールはソース動画と同じファイル名に .srt または .vtt 拡張子を付けたファイル名を提案します。字幕ファイルを動画と同じフォルダに配置すると、VLC やほとんどの動画プレーヤーが自動的に検出して読み込みます。
音声を英語のキャプションに翻訳できますか?
はい。"Translate to English" チェックボックスを有効にすると、Whisper が英語以外の音声を正確なタイムスタンプ付きの英語キャプションに直接翻訳します。これは Whisper モデルに組み込まれた機能です。
ファイルはどこかにアップロードされますか?
いいえ。メディアはデバイスの外に出ることはありません。音声のデコード、AI 推論、タイムスタンプ生成、キャプションのフォーマットなど、すべての処理がブラウザ内で完結します。どの時点でもサーバーは関与しません。
生成されたキャプションを編集できますか?
はい。エディタータブに切り替えて、修正、テキストの調整、生成されたキャプションの改善を行えます。エディターは別の編集可能なコピーを提供します — 元の生成されたキャプションはキャプションタブに保持されます。
どの言語がサポートされていますか?
当ツールは英語、スペイン語、フランス語、ドイツ語、イタリア語、ポルトガル語、ロシア語、中国語、日本語、韓国語、アラビア語、ヒンディー語など30以上の言語をサポートしています。ドロップダウンから話されている言語を選択する必要があります — 選択した言語は AI にどの言語を期待すべきかを伝えます。
オフラインで動作しますか?
初回のモデルダウンロード後は、インターネット接続なしでローカルに保存されたファイルに対してツールを使用できます。モデルはブラウザストレージにキャッシュされます。
精度に関する注意事項
AI キャプション生成はクリアな音声に対して非常に高い精度の結果を生成しますが、完璧ではありません。背景ノイズ、強いアクセント、話者の重複、専門用語は精度を低下させる可能性があります。重要な用途では、内蔵エディターを使用してキャプションを確認・修正してください。フォーマット設定(1行あたりの文字数、キューあたりの行数)により、コンテンツに関係なく字幕がプロの表示基準を満たすことが保証されます。
無料 AI CC ジェネレーターを選ぶ理由
- 完全なプライバシー: すべての AI 処理がブラウザ内でローカルに実行されます — メディアがサーバーにアップロードされることはありません
- SRT & VTT サポート: 瞬時に切り替え可能な業界標準の字幕形式
- プロ仕様のフォーマット: 放送品質の字幕のための1行あたりの文字数とキューあたりの行数の設定
- スマートなキュー分割: 長い文を補間タイムスタンプ付きの複数キューに自動分割
- 最先端の AI: 高精度な音声認識とタイムスタンプのための OpenAI Whisper モデル
- リアルタイムストリーミング: デコードされるキャプションをリアルタイムで確認 — ファイル全体の処理を待つ必要なし
- 30以上の言語: 30以上の言語でキャプションを生成し、英語への翻訳にも対応
- 内蔵エディター: エクスポート前にエラーを修正しキャプションを改善
- VLC 自動検出: 動画プレーヤーでの自動字幕読み込みのための一致するファイル名提案
- アカウント不要: 登録不要、ログイン不要、利用制限なし
- 音声 & 動画: 音声ファイル(MP3、WAV、OGG、FLAC)と動画ファイル(MP4、WebM、MOV)に対応
- WebGPU アクセラレーション: 利用可能な場合、GPU アクセラレーションを使用して高速処理
- モデルキャッシング: 一度のダウンロードで、以降の訪問では即座に読み込み