pii-redact

CS 텍스트의 개인정보(전화·주민번호·카드 등)를 LLM 입력 전 검출·마스킹

실험적 v0.1.3 릴리즈 v8.48.1 pii redaction masking privacy

PII Redact 활용 가이드

CS 상담·문의 텍스트를 Claude나 외부에 넣기 전, 개인정보(PII)를 먼저 가리는 안전 입구입니다. /pii-redact 지침으로 부탁하면 됩니다 — /pii-redact 이 상담 로그 비식별화해줘처럼요.

이 한 줄이면 스킬이 전화·이메일·주민번호·카드·계좌·주소 등을 결정론 룰로 검출해 [전화_1] 형식 플레이스홀더로 치환하고, 무엇을 몇 건 가렸는지 마스킹 리포트를 함께 남깁니다.

파일 또는 붙여넣은 텍스트를 주면 비식별 텍스트와 마스킹 리포트(JSON)가 나옵니다.

/pii-redact 이 상담 로그 비식별화해줘

리포트의 유형별 건수(by_type)와 보류 항목(low_confidence_skipped)을 함께 해석해 알려줍니다.

aspect-sentiment·cs-intent 같은 CS 분석 스킬에 raw 로그를 넣기 전, 이 스킬을 먼저 통과시킵니다.

/pii-redact 이 로그를 비식별화해서 측면감정 분석에 넘겨줘

일반적으로 카드번호·계좌번호처럼 구조·문맥이 불분명한 숫자열은 주문번호 오인을 막기 위해 보류합니다. 더 강한 비식별이 필요하면 이렇게 요청하세요.

/pii-redact 보류된 항목까지 모두 마스킹해서 비식별화해줘

비식별 텍스트 없이 마스킹 내역 리포트만 필요하다면 이렇게 요청하세요.

/pii-redact 이 로그에서 개인정보가 몇 건 검출됐는지 리포트만 줘

비식별 리포트에 원문 PII가 새지 않았는지 점검합니다.

/pii-redact 이 마스킹 리포트가 안전한지 검증해줘

스킬이 리포트의 원문 PII 유출 여부(키 화이트리스트)·유형별 건수 합·토큰 치환 반영을 점검합니다.

결정론 로컬 우선: raw 텍스트는 LLM에 먼저 넣지 않고 정규식/룰로 먼저 가립니다. LLM 2차 리뷰는 이미 마스킹된 텍스트에만 적용되며 기본은 꺼져 있습니다.
재현율 우선: 누락(PII 유출)이 과제거(본문 훼손)보다 위험하다고 보고 설계됐습니다. 단 무엇을 가렸는지는 마스킹 리포트로 투명하게 보고합니다.
체크섬은 confidence 태그: 주민번호 mod11·카드 Luhn 검증에 실패해도 마스킹은 하되 신뢰도를 낮춥니다. 필터가 아닙니다.
문서 내 일관 가명화: 같은 문서 안에서 같은 값은 같은 토큰([전화_1])으로 치환됩니다.
과탐 방지: 주문번호(2024-0312-8841)나 날짜는 PII가 아니므로 마스킹하지 않습니다. 카드·계좌 bare 숫자열은 강한 구조·문맥이 없으면 보류하고 리포트에 기록합니다.

자유텍스트 이름·구어체 주소는 결정론 룰로 못 잡습니다. 더 강한 비식별이 필요하면 "이름이나 구어체 주소도 추가로 가려줘"라고 Claude에게 말하세요(이미 마스킹된 텍스트에 한해 2차 리뷰가 동작합니다).
계좌는 은행별 자리수가 달라 문맥 키워드에 의존합니다. 문맥 없는 계좌는 놓칠 수 있습니다.
계좌 vs 사업자번호 라벨: 123-45-67890처럼 3-2-5 형태는 사업자등록번호 패턴과 일치할 수 있습니다. 마스킹은 정상(유출 0), 유형 라벨만 어긋날 수 있습니다.
룰 기반이라 신조어·변형 표기(예: "공일공")에는 약합니다.

CS 실데이터는 저장소에 저장하지 않습니다. 검증·테스트는 합성 데이터만 사용하고, 원본 로그는 읽기 전용으로만 다룹니다.