AI 자막 생성기
자막을 생성하려면 오디오 또는 비디오 파일을 업로드하세요

AI CC 생성기: 무료 온라인 SRT & VTT 자막 생성 도구


동영상이나 오디오 파일에 자막을 생성해야 하나요? 저희 AI CC 생성기는 OpenAI's Whisper 모델을 사용하여 정확한 타임스탬프가 포함된 SRT 및 VTT 자막 파일을 자동으로 생성합니다. 전문적인 포맷 제어 기능으로 출력을 세밀하게 조정하세요 — 줄당 문자 수와 큐당 줄 수를 설정하여 방송 품질의 자막을 만들 수 있습니다. 모든 작업은 브라우저에서 로컬로 실행됩니다 — 업로드 없음, 계정 불필요, 미디어에 대한 완벽한 개인정보 보호.

자막 생성기란 무엇이며 어떻게 작동하나요?

자막 생성기는 음성 오디오를 동영상 콘텐츠 위에 오버레이할 수 있는 타이밍이 지정된 텍스트 파일로 변환합니다. 단순 전사와 달리, 자막 생성기는 업계 표준에 맞게 포맷된 정밀한 타임스탬프 세그먼트를 생성합니다 — 비디오 편집기로 가져오거나, YouTube에 업로드하거나, 웹 페이지에 삽입할 수 있습니다.

저희 도구는 680,000시간의 다국어 오디오 데이터로 학습된 OpenAI's 최첨단 자동 음성 인식 모델인 Whisper를 사용합니다. 30초 단위로 오디오를 처리하며, 각 문장 세그먼트에 대해 정확한 시작 및 종료 타임스탬프가 포함된 텍스트를 생성합니다. 디코딩되는 동안 실시간으로 자막이 나타나는 것을 확인한 후, SRT 또는 VTT 형식으로 내보낼 수 있습니다.

자막 생성 방법: 단계별 가이드

저희 무료 AI 자막 생성기를 사용하는 것은 몇 단계만 거치면 됩니다:

  1. 음성 언어 선택: 드롭다운에서 오디오에서 사용되는 언어를 선택합니다 (기본값은 영어)
  2. 파일 업로드: 오디오 또는 비디오 파일을 드롭 영역에 드래그 앤 드롭하거나, 클릭하여 탐색합니다
  3. 실시간 생성 확인: AI 모델은 처음 사용 시 로드되며 (이후 방문 시 캐시됨), 미디어를 처리합니다 — 진행 표시기와 함께 자막 텍스트가 실시간으로 나타납니다
  4. 포맷 설정: SRT 또는 VTT 형식을 선택하고, 대상 플랫폼에 맞게 줄당 문자 수 (기본값 42)와 큐당 줄 수 (기본값 2)를 조정합니다
  5. 검토 및 편집: 편집기 탭으로 전환하여 생성된 자막의 오류를 수정합니다
  6. 내보내기: 자막을 클립보드에 복사하거나 .srt/.vtt 파일로 저장합니다 — 제안된 파일명은 VLC와 같은 비디오 플레이어의 자동 자막 감지를 위해 소스 파일과 동일합니다

SRT vs VTT: 어떤 자막 형식을 사용해야 하나요?

저희 도구는 가장 널리 사용되는 두 가지 자막 파일 형식을 지원합니다. 재처리 없이 즉시 전환할 수 있습니다 — 동일한 타임스탬프 데이터가 즉석에서 재포맷됩니다:

  • SRT (SubRip Text): 가장 보편적으로 지원되는 자막 형식입니다. 쉼표로 구분된 밀리초를 사용하는 번호가 매겨진 항목을 사용합니다 (00:00:01,500). YouTube, Premiere Pro, DaVinci Resolve, VLC를 포함한 거의 모든 비디오 플레이어, 편집기 및 플랫폼과 호환됩니다. 최대 호환성이 필요할 때 SRT를 선택하세요.
  • VTT (WebVTT): HTML5 비디오용으로 설계된 웹 네이티브 자막 형식입니다. WEBVTT 헤더와 점으로 구분된 밀리초를 사용합니다 (00:00:01.500). HTML5 <track> 요소에 필수이며 웹 플랫폼에서 일반적으로 사용됩니다. 웹 페이지나 웹 애플리케이션에 자막을 삽입할 때 VTT를 선택하세요.

전문 자막 포맷 제어

기본적인 자막 생성기와 달리, 저희 도구는 자막 포맷 방식을 제어할 수 있습니다 — 가독성 높고 전문적인 품질의 자막을 제작하는 데 필수적입니다:

  • 줄당 문자 수 (기본값: 42): 각 자막 줄의 최대 너비를 제어합니다. 방송 표준은 42자입니다 — 읽기 쉬우면서도 동영상을 가리지 않을 만큼 짧습니다. 긴 문장은 단어 경계에서 자동으로 줄 바꿈되며, 문장이 줄 제한을 초과하면 보간된 타임스탬프와 함께 여러 큐로 분할됩니다.
  • 큐당 줄 수 (기본값: 2): 각 자막 항목이 가질 수 있는 줄 수를 제어합니다. 2줄은 TV 및 스트리밍 표준입니다. 최소한의 눈에 띄지 않는 모습을 원하면 1줄을, 강의와 같은 밀도 높은 콘텐츠에는 3줄을 사용하세요. 줄 바꿈된 문장이 이 제한을 초과하면 비례적으로 계산된 타이밍과 함께 추가 큐가 자동으로 생성됩니다.

이러한 설정은 미리보기와 내보낸 파일 모두에 즉시 적용됩니다 — 재처리 없이 언제든지 변경할 수 있습니다.

AI 자막 생성기의 주요 기능

  • 실시간 스트리밍: 디코딩되는 동안 자막 텍스트가 나타나는 것을 확인하세요 — 전체 파일 처리가 끝날 때까지 기다릴 필요가 없습니다
  • 즉시 형식 전환: 언제든지 SRT와 VTT 간에 전환하세요 — 재처리 필요 없음
  • 스마트 줄 바꿈: 긴 문장은 줄당 문자 수 및 큐당 줄 수 설정을 준수하며, 보간된 타임스탬프와 함께 자동으로 여러 큐로 분할됩니다
  • 내장 편집기: 편집기 탭으로 전환하여 오류를 수정하고, 텍스트를 조정하거나, 내보내기 전에 자막을 세밀하게 조정하세요
  • 영어로 번역: "Translate to English" 체크박스를 활성화하면 비영어 오디오에서 영어 자막을 생성합니다
  • VLC 호환 파일명: 저장 대화 상자에서 소스 비디오와 동일한 파일명을 제안합니다 — .srt 파일을 비디오 옆에 놓으면 VLC가 자동으로 인식합니다
  • 정확한 타임스탬프: 각 자막 세그먼트에는 Whisper 모델's 어텐션 기반 정렬에서 파생된 정밀한 시작 및 종료 시간이 포함됩니다

AI 자막 생성의 일반적인 사용 사례

콘텐츠 크리에이터, 교육자 및 기업은 다양한 목적으로 AI 생성 자막을 사용합니다:

  • YouTube 동영상: SRT 파일을 생성하여 YouTube Studio를 통해 맞춤 자막으로 업로드하세요 (자막 → 언어 추가 → 파일 업로드 → "With timing"). 맞춤 자막은 YouTube's의 종종 부정확한 자동 자막을 대체하여 접근성, 시청자 유지율 및 SEO를 개선합니다 — YouTube는 검색 순위를 위해 자막 텍스트를 인덱싱합니다.
  • 소셜 미디어 콘텐츠: Instagram Reels, TikTok, Facebook 동영상을 위한 자막을 생성하세요. 소셜 미디어 동영상의 80% 이상이 무음으로 시청됩니다 — 자막은 참여도에 필수적입니다.
  • 이러닝 및 교육: 접근성 규정 준수와 이해도 향상을 위해 교육 동영상, 온라인 강좌, 강의 및 기업 교육 자료에 자막을 추가하세요.
  • 팟캐스트 및 웨비나: 비디오 팟캐스트와 녹화된 웨비나의 접근성과 검색 가능성을 높이기 위해 자막 파일을 생성하세요.
  • 비디오 편집 워크플로: SRT/VTT 파일을 Premiere Pro, DaVinci Resolve, Final Cut Pro 또는 CapCut으로 가져와 시작점으로 사용하세요 — 처음부터 자막을 입력하는 것보다 훨씬 빠릅니다.
  • 접근성 규정 준수: 웹사이트나 애플리케이션의 모든 비디오 콘텐츠에 자막을 제공하여 WCAG 2.1, ADA 및 Section 508 요구 사항을 충족하세요.
  • 외국어 번역: 번역 기능을 사용하여 외국어 오디오에서 영어 자막을 생성하세요 — 국제 콘텐츠의 자막 제작에 유용합니다.
  • 로컬 비디오 재생: 비디오 파일과 동일한 이름으로 .srt 파일을 저장하세요 — VLC, MPC-HC, mpv와 같은 플레이어가 일치하는 자막 파일을 자동으로 로드합니다.

AI 자막 생성 파이프라인의 작동 원리

기술에 관심 있는 사용자를 위해, 파일을 업로드할 때 발생하는 과정을 설명합니다:

1단계: 오디오 추출 및 전처리

업로드된 파일은 Web Audio API를 사용하여 디코딩됩니다. 비디오 파일 (MP4, WebM, MOV, AVI)의 경우 오디오 트랙이 자동으로 추출됩니다. 오디오는 Whisper가 기대하는 형식인 16kHz 모노로 리샘플링되고, Float32Array PCM 샘플로 변환됩니다.

2단계: 스트리밍을 통한 청크 처리

긴 오디오는 5초 겹침 스트라이드로 30초 청크로 자동 분할됩니다. 각 청크가 처리될 때, 디코딩된 단어가 WhisperTextStreamer를 통해 실시간으로 UI에 스트리밍되므로 텍스트가 생성되는 것을 즉시 확인할 수 있습니다.

3단계: 타임스탬프가 포함된 Whisper 추론

각 오디오 청크는 log-Mel 스펙트로그램으로 변환되어 Whisper 인코더-디코더 트랜스포머에 입력됩니다. 모델은 타임스탬프 토큰과 함께 자기회귀적으로 텍스트 토큰을 생성하여, 전사된 텍스트와 각 문장 세그먼트에 대한 정확한 타이밍 정보를 모두 산출합니다.

4단계: 자막 포맷 및 큐 분할

원시 타임스탬프 청크는 선택한 출력 형식 (SRT 또는 VTT)으로 포맷됩니다. 긴 문장은 줄당 문자 수 설정을 준수하며 단어 경계에서 줄 바꿈됩니다. 줄 바꿈된 텍스트가 큐당 줄 수 제한을 초과하면, 청크가 비례적으로 보간된 타임스탬프와 함께 여러 큐로 분할됩니다 — 각 큐가 올바른 시간에 표시되도록 보장합니다.

Whisper AI 모델 이해하기

저희 도구는 브라우저 배포에 최적화된 트랜스포머 기반 인코더-디코더 모델인 Whisper Base를 사용합니다:

  • 아키텍처: log-Mel 스펙트로그램 입력 특성을 사용하여 음성 인식에 대해 엔드투엔드로 학습된 인코더-디코더 트랜스포머
  • 모델 크기: 양자화된 ONNX 형식으로 약 150 MB — 브라우저 사용을 위한 정확도와 다운로드 크기 간의 균형
  • 학습 데이터: 웹에서 수집한 680,000시간의 다국어 및 다중 작업 지도 학습 데이터로 학습
  • 언어 지원: 영어, 스페인어, 프랑스어, 독일어, 중국어, 일본어, 한국어, 러시아어, 아랍어 등 30개 이상의 언어 전사 지원
  • 타임스탬프 정밀도: 정확한 자막 타이밍 및 큐 분할에 필수적인 문장 수준 타임스탬프 생성
  • 지연 로딩: 모델은 처음 파일을 업로드할 때만 다운로드되며 (페이지 로드 시 아님), 이후 방문 시 즉시 접근할 수 있도록 브라우저에 캐시됩니다

지원되는 오디오 및 비디오 형식

이 도구는 다양한 미디어 파일 형식을 지원합니다:

  • 오디오: MP3, WAV, OGG, FLAC, AAC, WMA, M4A, WebM 오디오
  • 비디오: MP4, WebM, MOV, AVI — 자막 생성을 위해 오디오 트랙이 자동으로 추출됩니다

모든 오디오는 최적의 Whisper 성능을 위해 내부적으로 16kHz 모노 PCM 형식으로 변환됩니다. Web Audio API가 형식 변환 및 리샘플링을 자동으로 처리합니다.

무료 온라인 자막 생성기: 개인정보 보호 및 보안

완벽한 개인정보 보호

저희 무료 AI 자막 생성기는 WebGPU 가속 (WASM 폴백)을 지원하는 Transformers.js를 사용하여 모든 추론을 브라우저에서 로컬로 처리합니다. 오디오나 비디오가 서버에 업로드되지 않으며, 클라우드 처리가 발생하지 않고, 계정이 필요하지 않습니다. Whisper 모델 (~150 MB)은 한 번 다운로드되면 이후 모든 방문에서 즉시 접근할 수 있도록 브라우저에 캐시됩니다.

AI 자막 생성기 vs 대안 접근 방식

접근 방식장점단점적합한 용도
AI CC 생성기 (이 도구)빠름, 무료, 30개 이상 언어, 개인정보 보호, 포맷 제어, SRT & VTT잡음이 많은 오디오의 경우 수동 수정이 필요할 수 있음개인정보 보호가 필요한 빠른 자막 생성
수동 자막 작성완벽한 정확도, 완전한 타이밍 제어매우 느림 (실시간의 5-10배), 비용이 높음전문 방송 또는 영화 자막
클라우드 자막 서비스높은 정확도, 화자 레이블, 자동 구두점오디오가 제3자 서버에 업로드됨, 구독 비용 발생개인정보 보호가 중요하지 않은 기업 사용
YouTube 자동 자막무료, 업로드된 동영상에 자동 적용YouTube에서만 작동, 제한된 내보내기 옵션, 품질 변동낮은 정확도 요구 사항의 YouTube 전용 콘텐츠

자주 묻는 질문

AI 모델의 크기는 얼마이며 다운로드에 얼마나 걸리나요?

Whisper 모델은 약 150 MB입니다. 파일을 처음 업로드할 때만 다운로드되며 — 페이지 로드 시에는 다운로드되지 않습니다. 다운로드 시간은 연결 속도에 따라 다르며 — 일반적으로 15초에서 1분 정도 소요됩니다. 처음 다운로드 후, 모델은 브라우저에 캐시되어 이후 모든 방문에서 즉시 로드됩니다.

자막 생성에 얼마나 걸리나요?

WebGPU를 지원하는 최신 하드웨어에서 Whisper는 실시간보다 빠르게 오디오를 처리합니다 — 60초 녹음은 일반적으로 자막 생성에 5-10초가 소요됩니다. 디코딩되는 동안 텍스트가 실시간으로 나타나는 것을 확인할 수 있으며, 진행 표시기가 전체 완료율을 보여줍니다.

재처리 없이 SRT와 VTT 간에 전환할 수 있나요?

네. 형식 전환 토글이 동일한 타임스탬프 데이터를 SRT와 VTT 형식 간에 즉시 변환합니다. 재처리가 필요하지 않습니다 — 순전히 포맷 변경입니다. 형식 전환 시 포맷 설정 (줄당 문자 수, 큐당 줄 수)이 유지됩니다.

줄당 문자 수와 큐당 줄 수 설정은 무엇을 하나요?

줄당 문자 수 (기본값 42)는 각 자막 줄의 너비를 제어합니다 — 42는 방송 표준입니다. 큐당 줄 수 (기본값 2)는 각 자막 항목이 가질 수 있는 줄 수를 제어합니다 — 2는 TV 및 스트리밍 표준입니다. 문장이 너무 길면, 도구가 올바르게 보간된 타임스탬프와 함께 자동으로 여러 큐로 분할합니다.

VLC가 생성된 자막을 자동으로 로드할 수 있나요?

네. 저장할 때, 도구는 소스 비디오와 동일한 파일명에 .srt 또는 .vtt 확장자를 제안합니다. 자막 파일을 비디오와 같은 폴더에 놓으면 — VLC 및 대부분의 다른 비디오 플레이어가 자동으로 감지하여 로드합니다.

오디오를 영어 자막으로 번역할 수 있나요?

네. "Translate to English" 체크박스를 활성화하면 Whisper가 비영어 음성을 정확한 타임스탬프와 함께 영어 자막으로 직접 번역합니다. 이것은 Whisper 모델의 내장 기능입니다.

파일이 어딘가에 업로드되나요?

아니요. 미디어는 절대로 기기를 떠나지 않습니다. 모든 처리 — 오디오 디코딩, AI 추론, 타임스탬프 생성, 자막 포맷 — 는 전적으로 브라우저 내에서 이루어집니다. 어떤 시점에서도 서버가 관여하지 않습니다.

생성된 자막을 편집할 수 있나요?

네. 편집기 탭으로 전환하여 수정하고, 텍스트를 조정하거나, 생성된 자막을 다듬을 수 있습니다. 편집기는 별도의 편집 가능한 사본을 제공합니다 — 원래 생성된 자막은 자막 탭에 보존됩니다.

어떤 언어가 지원되나요?

이 도구는 영어, 스페인어, 프랑스어, 독일어, 이탈리아어, 포르투갈어, 러시아어, 중국어, 일본어, 한국어, 아랍어, 힌디어 등 30개 이상의 언어를 지원합니다. 드롭다운에서 음성 언어를 선택해야 합니다 — 선택한 언어가 AI에게 어떤 언어를 기대해야 하는지 알려줍니다.

오프라인에서 작동하나요?

초기 모델 다운로드 후, 이 도구는 인터넷 연결 없이 로컬에 저장된 파일로 작동합니다. 모델은 브라우저 저장소에 캐시됩니다.

정확도에 대한 참고 사항

AI 자막 생성은 명확한 음성에 대해 매우 정확한 결과를 생성하지만 완벽하지는 않습니다. 배경 소음, 강한 억양, 겹치는 화자, 특수 분야 용어는 정확도를 낮출 수 있습니다. 중요한 사용 사례의 경우 내장 편집기를 사용하여 자막을 검토하고 수정하세요. 포맷 제어 기능 (줄당 문자 수, 큐당 줄 수)은 콘텐츠에 관계없이 자막이 전문적인 표시 표준을 충족하도록 도와줍니다.

왜 저희 무료 AI CC 생성기를 선택해야 하나요?

  • 완벽한 개인정보 보호: 모든 AI 처리가 브라우저에서 로컬로 이루어집니다 — 미디어가 어떤 서버에도 업로드되지 않습니다
  • SRT & VTT 지원: 즉시 전환 가능한 업계 표준 자막 형식
  • 전문 포맷: 방송 품질의 자막을 위한 줄당 문자 수 및 큐당 줄 수 구성 가능
  • 스마트 큐 분할: 긴 문장이 보간된 타임스탬프와 함께 자동으로 여러 큐로 분할됩니다
  • 최첨단 AI: 타임스탬프를 포함한 높은 정확도의 음성 인식을 위한 OpenAI Whisper 모델
  • 실시간 스트리밍: 디코딩되는 동안 자막이 나타나는 것을 확인하세요 — 전체 파일을 기다릴 필요 없음
  • 30개 이상 언어: 영어 번역 기능과 함께 30개 이상의 언어로 자막 생성
  • 내장 편집기: 내보내기 전에 오류를 수정하고 자막을 다듬으세요
  • VLC 자동 감지: 비디오 플레이어에서 자동 자막 로딩을 위한 일치하는 파일명 제안
  • 계정 불필요: 가입 없음, 로그인 없음, 사용 제한 없음
  • 오디오 & 비디오: 오디오 파일 (MP3, WAV, OGG, FLAC)과 비디오 파일 (MP4, WebM, MOV) 지원
  • WebGPU 가속: 가능한 경우 GPU 가속을 사용하여 더 빠른 처리
  • 모델 캐싱: 한 번 다운로드, 이후 모든 방문에서 즉시 로딩