PDF를 LLM이 참조할 수 있는 깨끗한 구조화 마크다운으로 변환합니다. Claude에게 말로 부탁하면 됩니다 — “PDF를 마크다운으로 변환해줘”, “이 교재를 지식베이스로 만들어줘”처럼요.
빠른 시작
PDF를 마크다운으로 변환해줘
이 교재를 지식베이스로 만들어줘
스캔 PDF OCR 정리해줘
스킬이 자동으로 PDF를 분석하고, 최적의 변환 전략을 선택하여 마크다운을 생성합니다.
활용 시나리오
교재를 지식베이스로 변환
교재나 보고서를 섹션별로 분할된 마크다운 파일 세트로 변환할 수 있습니다. RAG·지식베이스 용도에 적합합니다.
이 세무 교재를 챕터별 마크다운으로 나눠줘. 표와 한국어 띄어쓰기 살려서.
대용량 PDF 부분 변환
200페이지가 넘는 문서도 필요한 부분만 변환할 수 있습니다.
이 PDF의 85~100페이지만 마크다운으로 뽑아줘. 표는 마크다운 테이블로 재구성해서.
스캔 PDF OCR 정리
이미지 전용 스캔 PDF는 페이지를 이미지로 변환한 뒤 Claude의 비전 기능으로 직접 읽어 마크다운을 만듭니다. 별도 OCR 엔진이 필요하지 않습니다.
이 스캔 PDF를 OCR 처리해서 마크다운으로 정리해줘
서식·표 중심 문서
빈 필드·사전 인쇄 라벨이 많은 서식 페이지는 텍스트 추출 대신 이미지로 임베딩하고, 주요 필드 설명만 짧게 남깁니다.
이 세금 신고 서식 PDF 정리해줘. 서식 페이지는 이미지로 남겨둬.
출력 옵션
| 옵션 | 설명 | 사용 시점 |
|---|---|---|
| 섹션별 다중 파일 | 00_서론.md, 01_본론.md + INDEX.md + images/ | 긴 교재·매뉴얼 (30페이지 초과) |
| 단일 파일 | 하나의 마크다운에 상단 목차 포함 | 짧은 문서·단일 섹션 발췌 |
| 마크다운 테이블 | 깨진 OCR 행을 표 형식으로 복원 | 비교표·감면율 등 표 데이터 포함 |
| 이미지 임베딩 | 복잡한 서식·다이어그램을 이미지 + 설명으로 보존 | 서식·복잡한 다이어그램·수식 |
원하는 출력 방식을 자연어로 말해주면 됩니다.
추출 품질 검증
변환이 끝난 뒤 “추출 품질 검증해줘”라고 말하면 내용 손실 여부를 확인합니다. 도메인과 총 페이지 수를 함께 말하면 더 정확한 기준이 적용됩니다.
추출 품질 검증해줘 (세무 도메인, 120페이지 문서)
추출 결과 점검해줘 (전자/전기 교재 유형)
지원 도메인: 세무·회계, 전자·전기, 법률, 공학
검증 후 내용 손실이 감지된 구간은 더 작은 범위로 재처리합니다.
팁
- 청크는 반드시 작게: 한 번에 50페이지를 넘기면 내용 손실이 발생합니다. 30~40페이지 단위가 안전하며, 섹션 분할 시 5페이지 오버랩을 두면 문맥 연속성을 지킬 수 있습니다.
- 독립 섹션은 병렬 실행: 교재 섹션은 대부분 서로 독립적입니다. “챕터별로 동시에 처리해줘”라고 하면 처리 시간을 크게 단축할 수 있습니다.
- 표 복원이 애매하면 인용문: 구조가 모호한 표는 깨진 마크다운 테이블보다 인용문이나 들여쓴 목록이 가독성이 좋습니다. 단, 구조가 보이면 테이블 쪽으로 기울이세요.
- 수식·다이어그램은 이미지 + 설명: 마크다운으로 표현하기 어려운 요소는 해당 페이지를 이미지로 보존하고, 아래에 짧은 설명 캡션을 덧붙입니다.
제한사항
- 외부 도구 필요:
pdftotext·pdfinfo·pdftoppm이 필요합니다. Claude Cowork 환경에는 기본 설치되어 있습니다. 로컬 macOS는 Homebrew로, Ubuntu/Debian은 패키지 관리자로 설치할 수 있습니다. - 스캔 PDF는 Claude 비전 경로: 별도 OCR 엔진을 사용하지 않고 Claude가 이미지를 직접 읽어 텍스트를 재구성합니다. 해상도는 300 DPI 이상 권장.
- 암호화·DRM PDF 미지원: 비밀번호 보호나 추출 제한이 걸린 PDF는 변환할 수 없습니다. 사전에 잠금 해제가 필요합니다.
- 마크다운 표현 한계: LaTeX 수식, 복잡한 벡터 다이어그램, 악보 등은 마크다운으로 온전히 재현되지 않습니다. 이미지로 보존한 뒤 설명 캡션으로 보충하는 방식을 권장합니다.
- 저작권 주의: 상업 출판물 전문을 RAG·지식베이스로 변환하기 전에 라이선스를 확인하세요.