스킬.잇다
itda-work/stt 정식 v1.1.1

빠른 시작

WAV, MP3, FLAC 등 오디오 파일을 한 줄 요청으로 텍스트로 변환합니다.

이 WAV 파일 텍스트로 변환해줘
녹음 파일 받아쓰기 해줘
mp3 파일 한국어로 변환해서 txt로 저장해줘

첫 실행 시에는 모델을 약 142MB 내려받은 뒤 로컬 CPU로 변환합니다. 이후 실행은 캐시된 모델로 빠르게 동작합니다.

활용 시나리오

회의·강의 녹음 받아쓰기

단일 녹음 파일을 전체 텍스트로 한 번에 변환합니다.

이 회의 녹음 파일 텍스트로 변환해줘

언어 지정으로 속도·정확도 개선

언어를 명시하면 자동 감지 단계를 건너뛰어 처리 시간이 2~3배 단축됩니다.

이 파일 한국어로 변환해줘
영어 강의 녹음 영어로 받아쓰기 해줘

자막·타임스탬프 생성

각 구간의 시작·종료 시간을 포함해 자막(.srt, .vtt) 용도로 활용합니다.

이 영상 음성에 타임스탬프 붙여서 자막 포맷으로 뽑아줘

폴더 내 여러 파일 일괄 변환

디렉토리 내 여러 오디오 파일을 순회하며 각각 텍스트 파일로 저장합니다.

이 폴더 안의 mp3들 전부 받아쓰기 해서 txt로 저장해줘

출력 옵션

옵션설명사용 시점
화면 출력변환된 본문을 즉시 채팅에 표시짧은 메모, 내용 빠른 확인
텍스트 파일(.txt)전체 본문을 파일로 저장문서화, 검색, LLM 후속 입력
자막 포맷(.srt, .vtt)구간별 타임스탬프 포함영상 자막, 강의 구간 북마크
요약·요점 정리본문 변환 후 별도 LLM으로 요약 요청긴 회의·강의에서 핵심만 추리기

핵심 옵션

옵션기본값권장 조정 시점
언어 지정 (language="ko" 등)자동 감지언어가 확실할 때 — 항상 지정 권장
출력 경로·포맷화면 출력.txt, .srt 등 후속 활용이 필요할 때
모델 크기base (~142MB)속도 우선 tiny, 정확도 우선 small

  • 언어는 가급적 명시: language="ko"처럼 지정하면 자동 감지 단계를 건너뛰어 첫 변환 속도가 크게 빨라집니다.
  • 기본 모델(tiny/base/small)만 사용: HuggingFace의 파생 모델이나 large-v3 등은 별도 다운로드·용량·호환성 이슈가 있어 기본 3종을 우선 활용하세요. 일반 용도는 base 하나로 충분합니다.
  • 첫 실행 모델 캐시: 첫 실행 시 모델을 자동 다운로드하며 이후 실행부터는 로컬 캐시로 동작하므로 인터넷 없이도 변환 가능합니다.
  • 긴 오디오는 세그먼트 단위 처리: for seg in segments: 루프로 구간별 진척 표시·중간 저장이 가능해 1시간 이상 녹음에 유리합니다.
  • 요약·후처리는 별도 단계: stt는 변환에만 집중하고, 요약·정리는 변환 결과 텍스트를 LLM에 이어서 요청하는 패턴이 자연스럽습니다.

제한사항

  • 마이크 입력 불가: Cowork 환경에 오디오 하드웨어가 없어 arecord, sox -t alsa, ffmpeg -f alsa 등 실시간 녹음 명령은 사용할 수 없습니다. 파일 변환 전용입니다.
  • CPU 전용: device="cpu", compute_type="int8" 고정. GPU·CUDA 옵션은 지원하지 않으며 관련 경고는 무시해도 됩니다.
  • 첫 실행 인터넷 필요: 모델 최초 다운로드에만 네트워크 연결이 필요합니다.
  • 긴 오디오는 시간 소요: base 모델 CPU 기준 1시간 분량 오디오 변환에 수 분 이상 걸릴 수 있습니다.

지원되지 않는 케이스

  • 실시간 마이크·스트리밍: 파일 입력만 처리합니다.
  • 화자 분리 (Speaker Diarization): 여러 화자 구분 기능 없음. 필요 시 pyannote 등 별도 도구와 결합해야 합니다.
  • DRM·보호 오디오: 보호가 적용된 오디오 파일은 처리할 수 없습니다.
  • Whisper 99개 언어 외 소수 언어: 학습되지 않은 언어는 정확도가 급격히 떨어집니다.