pdf-context-refinery

PDF를 지식베이스·LLM 컨텍스트용 구조화 마크다운으로 정제 (OCR·표 재구성)

v1.2.3 릴리즈 v8.48.1 pdf markdown ocr knowledge-base

PDF를 LLM이 참조할 수 있는 깨끗한 구조화 마크다운으로 변환합니다. Claude에게 말로 부탁하면 됩니다 — /pdf-context-refinery PDF를 마크다운으로 변환해줘, /pdf-context-refinery 이 교재를 지식베이스로 만들어줘처럼요.

빠른 시작

/pdf-context-refinery PDF를 마크다운으로 변환해줘
/pdf-context-refinery 이 교재를 지식베이스로 만들어줘
/pdf-context-refinery 스캔 PDF OCR 정리해줘

스킬이 자동으로 PDF를 분석하고, 최적의 변환 전략을 선택하여 마크다운을 생성합니다.

활용 시나리오

교재를 지식베이스로 변환

교재나 보고서를 섹션별로 분할된 마크다운 파일 세트로 변환할 수 있습니다. RAG·지식베이스 용도에 적합합니다.

/pdf-context-refinery 이 세무 교재를 챕터별 마크다운으로 나눠줘. 표와 한국어 띄어쓰기 살려서.

대용량 PDF 부분 변환

200페이지가 넘는 문서도 필요한 부분만 변환할 수 있습니다.

/pdf-context-refinery 이 PDF의 85~100페이지만 마크다운으로 뽑아줘. 표는 마크다운 테이블로 재구성해서.

스캔 PDF OCR 정리

이미지 전용 스캔 PDF는 페이지를 이미지로 변환한 뒤 Claude의 비전 기능으로 직접 읽어 마크다운을 만듭니다. 별도 OCR 엔진이 필요하지 않습니다.

/pdf-context-refinery 이 스캔 PDF를 OCR 처리해서 마크다운으로 정리해줘

서식·표 중심 문서

빈 필드·사전 인쇄 라벨이 많은 서식 페이지는 텍스트 추출 대신 이미지로 임베딩하고, 주요 필드 설명만 짧게 남깁니다.

/pdf-context-refinery 이 세금 신고 서식 PDF 정리해줘. 서식 페이지는 이미지로 남겨둬.

출력 옵션

옵션	설명	사용 시점
섹션별 다중 파일	`00_서론.md`, `01_본론.md` + `INDEX.md` + `images/`	긴 교재·매뉴얼 (30페이지 초과)
단일 파일	하나의 마크다운에 상단 목차 포함	짧은 문서·단일 섹션 발췌
마크다운 테이블	깨진 OCR 행을 표 형식으로 복원	비교표·감면율 등 표 데이터 포함
이미지 임베딩	복잡한 서식·다이어그램을 이미지 + 설명으로 보존	서식·복잡한 다이어그램·수식

원하는 출력 방식을 자연어로 말해주면 됩니다.

추출 품질 검증

변환이 끝난 뒤 /pdf-context-refinery 추출 품질 검증해줘라고 말하면 내용 손실 여부를 확인합니다. 도메인과 총 페이지 수를 함께 말하면 더 정확한 기준이 적용됩니다.

/pdf-context-refinery 추출 품질 검증해줘 (세무 도메인, 120페이지 문서)
/pdf-context-refinery 추출 결과 점검해줘 (전자/전기 교재 유형)

지원 도메인: 세무·회계, 전자·전기, 법률, 공학

검증 후 내용 손실이 감지된 구간은 더 작은 범위로 재처리합니다.

팁

청크는 반드시 작게: 한 번에 50페이지를 넘기면 내용 손실이 발생합니다. 30~40페이지 단위가 안전하며, 섹션 분할 시 5페이지 오버랩을 두면 문맥 연속성을 지킬 수 있습니다.
독립 섹션은 병렬 실행: 교재 섹션은 대부분 서로 독립적입니다. /pdf-context-refinery 챕터별로 동시에 처리해줘라고 하면 처리 시간을 크게 단축할 수 있습니다.
표 복원이 애매하면 인용문: 구조가 모호한 표는 깨진 마크다운 테이블보다 인용문이나 들여쓴 목록이 가독성이 좋습니다. 단, 구조가 보이면 테이블 쪽으로 기울이세요.
수식·다이어그램은 이미지 + 설명: 마크다운으로 표현하기 어려운 요소는 해당 페이지를 이미지로 보존하고, 아래에 짧은 설명 캡션을 덧붙입니다.

제한사항

외부 도구 필요: pdftotext·pdfinfo·pdftoppm이 필요합니다. Claude Cowork 환경에는 기본 설치되어 있습니다. 로컬 macOS는 Homebrew로, Ubuntu/Debian은 패키지 관리자로 설치할 수 있습니다.
스캔 PDF는 Claude 비전 경로: 별도 OCR 엔진을 사용하지 않고 Claude가 이미지를 직접 읽어 텍스트를 재구성합니다. 해상도는 300 DPI 이상 권장.
암호화·DRM PDF 미지원: 비밀번호 보호나 추출 제한이 걸린 PDF는 변환할 수 없습니다. 사전에 잠금 해제가 필요합니다.
마크다운 표현 한계: LaTeX 수식, 복잡한 벡터 다이어그램, 악보 등은 마크다운으로 온전히 재현되지 않습니다. 이미지로 보존한 뒤 설명 캡션으로 보충하는 방식을 권장합니다.