빠른 시작
WAV, MP3, FLAC 등 오디오 파일을 한 줄 요청으로 텍스트로 변환합니다.
이 WAV 파일 텍스트로 변환해줘
녹음 파일 받아쓰기 해줘
mp3 파일 한국어로 변환해서 txt로 저장해줘
첫 실행 시에는 모델을 약 142MB 내려받은 뒤 로컬 CPU로 변환합니다. 이후 실행은 캐시된 모델로 빠르게 동작합니다.
활용 시나리오
회의·강의 녹음 받아쓰기
단일 녹음 파일을 전체 텍스트로 한 번에 변환합니다.
이 회의 녹음 파일 텍스트로 변환해줘
언어 지정으로 속도·정확도 개선
언어를 명시하면 자동 감지 단계를 건너뛰어 처리 시간이 2~3배 단축됩니다.
이 파일 한국어로 변환해줘
영어 강의 녹음 영어로 받아쓰기 해줘
자막·타임스탬프 생성
각 구간의 시작·종료 시간을 포함해 자막(.srt, .vtt) 용도로 활용합니다.
이 영상 음성에 타임스탬프 붙여서 자막 포맷으로 뽑아줘
폴더 내 여러 파일 일괄 변환
디렉토리 내 여러 오디오 파일을 순회하며 각각 텍스트 파일로 저장합니다.
이 폴더 안의 mp3들 전부 받아쓰기 해서 txt로 저장해줘
출력 옵션
| 옵션 | 설명 | 사용 시점 |
|---|---|---|
| 화면 출력 | 변환된 본문을 즉시 채팅에 표시 | 짧은 메모, 내용 빠른 확인 |
| 텍스트 파일(.txt) | 전체 본문을 파일로 저장 | 문서화, 검색, LLM 후속 입력 |
| 자막 포맷(.srt, .vtt) | 구간별 타임스탬프 포함 | 영상 자막, 강의 구간 북마크 |
| 요약·요점 정리 | 본문 변환 후 별도 LLM으로 요약 요청 | 긴 회의·강의에서 핵심만 추리기 |
핵심 옵션
| 옵션 | 기본값 | 권장 조정 시점 |
|---|---|---|
언어 지정 (language="ko" 등) | 자동 감지 | 언어가 확실할 때 — 항상 지정 권장 |
| 출력 경로·포맷 | 화면 출력 | .txt, .srt 등 후속 활용이 필요할 때 |
| 모델 크기 | base (~142MB) | 속도 우선 tiny, 정확도 우선 small |
팁
- 언어는 가급적 명시:
language="ko"처럼 지정하면 자동 감지 단계를 건너뛰어 첫 변환 속도가 크게 빨라집니다. - 기본 모델(
tiny/base/small)만 사용: HuggingFace의 파생 모델이나large-v3등은 별도 다운로드·용량·호환성 이슈가 있어 기본 3종을 우선 활용하세요. 일반 용도는base하나로 충분합니다. - 첫 실행 모델 캐시: 첫 실행 시 모델을 자동 다운로드하며 이후 실행부터는 로컬 캐시로 동작하므로 인터넷 없이도 변환 가능합니다.
- 긴 오디오는 세그먼트 단위 처리:
for seg in segments:루프로 구간별 진척 표시·중간 저장이 가능해 1시간 이상 녹음에 유리합니다. - 요약·후처리는 별도 단계: stt는 변환에만 집중하고, 요약·정리는 변환 결과 텍스트를 LLM에 이어서 요청하는 패턴이 자연스럽습니다.
제한사항
- 마이크 입력 불가: Cowork 환경에 오디오 하드웨어가 없어
arecord,sox -t alsa,ffmpeg -f alsa등 실시간 녹음 명령은 사용할 수 없습니다. 파일 변환 전용입니다. - CPU 전용:
device="cpu",compute_type="int8"고정. GPU·CUDA 옵션은 지원하지 않으며 관련 경고는 무시해도 됩니다. - 첫 실행 인터넷 필요: 모델 최초 다운로드에만 네트워크 연결이 필요합니다.
- 긴 오디오는 시간 소요:
base모델 CPU 기준 1시간 분량 오디오 변환에 수 분 이상 걸릴 수 있습니다.
지원되지 않는 케이스
- 실시간 마이크·스트리밍: 파일 입력만 처리합니다.
- 화자 분리 (Speaker Diarization): 여러 화자 구분 기능 없음. 필요 시
pyannote등 별도 도구와 결합해야 합니다. - DRM·보호 오디오: 보호가 적용된 오디오 파일은 처리할 수 없습니다.
- Whisper 99개 언어 외 소수 언어: 학습되지 않은 언어는 정확도가 급격히 떨어집니다.