오디오 파일 텍스트 변환 (stt) 상세 가이드

빠른 시작

WAV, MP3, FLAC 등 오디오 파일을 한 줄 요청으로 텍스트로 변환합니다.

이 WAV 파일 텍스트로 변환해줘
녹음 파일 받아쓰기 해줘
mp3 파일 한국어로 변환해서 txt로 저장해줘

첫 실행 시에는 모델을 약 142MB 내려받은 뒤 로컬 CPU로 변환합니다. 이후 실행은 캐시된 모델로 빠르게 동작합니다.

단일 녹음 파일을 전체 텍스트로 한 번에 변환합니다.

이 회의 녹음 파일 텍스트로 변환해줘

언어를 명시하면 자동 감지 단계를 건너뛰어 처리 시간이 2~3배 단축됩니다.

이 파일 한국어로 변환해줘
영어 강의 녹음 영어로 받아쓰기 해줘

각 구간의 시작·종료 시간을 포함해 자막(.srt, .vtt) 용도로 활용합니다.

이 영상 음성에 타임스탬프 붙여서 자막 포맷으로 뽑아줘

디렉토리 내 여러 오디오 파일을 순회하며 각각 텍스트 파일로 저장합니다.

이 폴더 안의 mp3들 전부 받아쓰기 해서 txt로 저장해줘

언어는 가급적 명시: language="ko"처럼 지정하면 자동 감지 단계를 건너뛰어 첫 변환 속도가 크게 빨라집니다.
기본 모델(tiny/base/small)만 사용: HuggingFace의 파생 모델이나 large-v3 등은 별도 다운로드·용량·호환성 이슈가 있어 기본 3종을 우선 활용하세요. 일반 용도는 base 하나로 충분합니다.
첫 실행 모델 캐시: 첫 실행 시 모델을 자동 다운로드하며 이후 실행부터는 로컬 캐시로 동작하므로 인터넷 없이도 변환 가능합니다.
긴 오디오는 세그먼트 단위 처리: for seg in segments: 루프로 구간별 진척 표시·중간 저장이 가능해 1시간 이상 녹음에 유리합니다.
요약·후처리는 별도 단계: stt는 변환에만 집중하고, 요약·정리는 변환 결과 텍스트를 LLM에 이어서 요청하는 패턴이 자연스럽습니다.

마이크 입력 불가: Cowork 환경에 오디오 하드웨어가 없어 arecord, sox -t alsa, ffmpeg -f alsa 등 실시간 녹음 명령은 사용할 수 없습니다. 파일 변환 전용입니다.
CPU 전용: device="cpu", compute_type="int8" 고정. GPU·CUDA 옵션은 지원하지 않으며 관련 경고는 무시해도 됩니다.
첫 실행 인터넷 필요: 모델 최초 다운로드에만 네트워크 연결이 필요합니다.
긴 오디오는 시간 소요: base 모델 CPU 기준 1시간 분량 오디오 변환에 수 분 이상 걸릴 수 있습니다.

실시간 마이크·스트리밍: 파일 입력만 처리합니다.
화자 분리 (Speaker Diarization): 여러 화자 구분 기능 없음. 필요 시 pyannote 등 별도 도구와 결합해야 합니다.
DRM·보호 오디오: 보호가 적용된 오디오 파일은 처리할 수 없습니다.
Whisper 99개 언어 외 소수 언어: 학습되지 않은 언어는 정확도가 급격히 떨어집니다.