빠른 시작
PDF 파일을 LLM이 참조할 수 있는 깨끗한 마크다운으로 변환하는 가장 간단한 방법입니다.
PDF를 마크다운으로 변환해줘
이 교재를 지식베이스로 만들어줘
스캔 PDF OCR 정리해줘
이 한 줄이면 스킬이 자동으로 PDF를 분석하고, 최적의 변환 전략을 선택하여 마크다운을 생성합니다. 출력 파일은 기본적으로 입력 PDF와 같은 디렉토리에 생성됩니다.
활용 시나리오
교재를 지식베이스로 변환
교재나 보고서를 섹션별로 분할된 마크다운 파일 세트로 변환할 수 있습니다. RAG·지식베이스 용도에 적합합니다.
이 세무 교재를 챕터별 마크다운으로 나눠줘. 표와 한국어 띄어쓰기 살려서.
대용량 PDF 부분 변환
200페이지가 넘는 문서도 페이지 범위를 지정하면 필요한 부분만 변환할 수 있습니다.
이 PDF의 p.85~100만 마크다운으로 뽑아줘. 표는 마크다운 테이블로 재구성해서.
스캔 PDF OCR 정리
이미지 전용 스캔 PDF는 pdftoppm으로 페이지를 PNG로 렌더링한 뒤 Claude의 비전 기능으로 직접 읽어 마크다운을 만듭니다. tesseract가 필요하지 않습니다.
이 스캔 PDF를 OCR 처리해서 마크다운으로 정리해줘
서식·표 중심 문서
빈 필드·사전 인쇄 라벨이 많은 서식 페이지는 텍스트 추출 대신 PNG 이미지로 임베딩하고, 주요 필드 설명만 짧게 남깁니다.
이 세금 신고 서식 PDF 정리해줘. 서식 페이지는 이미지로 남겨둬.
출력 옵션
| 옵션 | 설명 | 사용 시점 |
|---|---|---|
| 섹션별 다중 파일 | 00_서론.md, 01_본론.md + INDEX.md + images/ | 긴 교재·매뉴얼 (30페이지 초과) |
| 단일 파일 | 하나의 .md에 상단 목차 포함 | 짧은 문서·단일 섹션 발췌 |
| 마크다운 테이블 | 깨진 OCR 행을 ` | 열 A |
| 이미지 임베딩 페이지 |  + 필드 설명 | 서식·복잡한 다이어그램·수식 |
주요 플래그
| 플래그 | 용도 | 예시 |
|---|---|---|
-f <N> -l <M> | 처리할 페이지 범위 지정 | pdftotext -f 85 -l 100 -layout input.pdf ... |
-r 200 / -r 300 | PNG 렌더링 해상도 (서식용 200, 스캔 재처리용 300) | pdftoppm -f 42 -l 42 -png -r 300 input.pdf .itda-skills/page |
--type | 검증 스크립트 문서 유형 | python verify_quality.py out/ --pages 120 --type textbook |
팁
- 청크는 반드시 작게: 한 번에 50페이지를 넘기면 내용 손실이 발생합니다. 30~40페이지 단위가 안전하며, 섹션 분할 시 5페이지 오버랩을 두면 문맥 연속성을 지킬 수 있습니다.
- 독립 섹션은 병렬 실행: 교재 섹션은 대부분 서로 독립적입니다. 단일 메시지에서 여러 Agent 호출을 동시에 실행하면 처리 시간을 크게 단축할 수 있습니다.
- 표 복원이 애매하면 인용문: 구조가 모호한 표는 깨진 마크다운 테이블보다
>인용문이나 들여쓴 목록이 가독성이 좋습니다. 단, 구조가 보이면 테이블 쪽으로 기울이세요. - 마크다운으로 어려운 콘텐츠는 이미지 + 설명: 수식·복잡한 다이어그램·수기 서명란 등 마크다운 문법으로 제대로 표현하기 어려운 요소는 해당 페이지를 PNG로 보존하고, 그 아래 LLM이 본 내용을 설명하는 짧은 캡션을 덧붙이세요.
- 검증 스크립트로 재처리 판단:
verify_quality.py의 줄 수 비율이 임계값보다 낮거나 테이블 수가 0이면 페이지 범위를 반으로 줄여 재처리합니다.
제한사항
- poppler-utils 필수:
pdftotext·pdfinfo·pdftoppm이 설치되어 있어야 합니다. macOS는brew install poppler, Ubuntu/Debian은apt-get install -y poppler-utils. Claude Cowork 환경에는 기본 설치되어 있습니다. - 스캔 PDF는 Claude 비전 경로: OCR 엔진(tesseract 등)을 사용하지 않고 Claude가 PNG 이미지를 직접 읽어 텍스트를 재구성합니다. 해상도는 300 DPI 이상 권장.
- 출력 경로 원칙: 결과 마크다운과
images/디렉토리는 입력 PDF와 같은 디렉토리에 생성하는 것을 기본으로 합니다. 절대 홈 경로(~/)나 시스템 경로에 저장하지 마세요. - 임시 파일 위치: 추출 중간 산출물(
sample.txt,toc.txt,section_raw.txt등)은 CWD 기준.itda-skills/아래에 저장해야 Cowork 컨테이너와 호환됩니다. - 암호화·DRM PDF 미지원: 비밀번호 보호나 추출 제한이 걸린 PDF는
pdftotext가 실패합니다. 사전에 잠금 해제가 필요합니다. - 마크다운 표현 한계 콘텐츠: LaTeX 수식, 복잡한 벡터 다이어그램, 악보 같은 콘텐츠는 마크다운으로 온전히 재현되지 않습니다. 이미지로 보존한 뒤 LLM 설명 캡션으로 보충하는 방식을 권장합니다.
- 저작권 주의: 상업 출판물 전문을 RAG·지식베이스로 변환하기 전에 라이선스를 확인하세요.