PII Redact 활용 가이드
CS 상담·문의 텍스트를 Claude나 외부에 넣기 전, 개인정보(PII)를 먼저 가리는 안전 입구입니다. Claude에게 말로 부탁하면 됩니다 — “이 상담 로그 비식별화해줘”처럼요.
이 한 줄이면 스킬이 전화·이메일·주민번호·카드·계좌·주소 등을 결정론 룰로 검출해 [전화_1] 형식 플레이스홀더로 치환하고, 무엇을 몇 건 가렸는지 마스킹 리포트를 함께 남깁니다.
이렇게 말해보세요
| 하고 싶은 것 | 이렇게 말하세요 |
|---|---|
| 로그 비식별화 | ”이 상담 로그 비식별화해줘” |
| 개인정보 가리기 | ”개인정보 가려줘” |
| 익명화 | ”이거 안전하게 익명화해줘” |
| PII 마스킹 | ”PII 마스킹해줘” |
활용 시나리오
CS 로그를 비식별화하기
파일 또는 붙여넣은 텍스트를 주면 비식별 텍스트와 마스킹 리포트(JSON)가 나옵니다.
이 상담 로그 비식별화해줘
리포트의 유형별 건수(by_type)와 보류 항목(low_confidence_skipped)을 함께 해석해 알려줍니다.
다른 CS 스킬의 입구 전처리로 쓰기
aspect-sentiment·cs-intent 같은 CS 분석 스킬에 raw 로그를 넣기 전, 이 스킬을 먼저 통과시킵니다.
이 로그를 비식별화해서 측면감정 분석에 넘겨줘
최대 재현율이 필요할 때
일반적으로 카드번호·계좌번호처럼 구조·문맥이 불분명한 숫자열은 주문번호 오인을 막기 위해 보류합니다. 더 강한 비식별이 필요하면 이렇게 말하세요.
보류된 항목까지 모두 마스킹해서 비식별화해줘
리포트만 받고 싶을 때
비식별 텍스트 없이 마스킹 내역 리포트만 필요하다면 이렇게 말하세요.
이 로그에서 개인정보가 몇 건 검출됐는지 리포트만 줘
결과 검증하기
비식별 리포트에 원문 PII가 새지 않았는지 점검합니다.
이 마스킹 리포트가 안전한지 검증해줘
스킬이 리포트의 원문 PII 유출 여부(키 화이트리스트)·유형별 건수 합·토큰 치환 반영을 점검합니다.
팁
- 결정론 로컬 우선: raw 텍스트는 LLM에 먼저 넣지 않고 정규식/룰로 먼저 가립니다. LLM 2차 리뷰는 이미 마스킹된 텍스트에만 적용되며 기본은 꺼져 있습니다.
- 재현율 우선: 누락(PII 유출)이 과제거(본문 훼손)보다 위험하다고 보고 설계됐습니다. 단 무엇을 가렸는지는 마스킹 리포트로 투명하게 보고합니다.
- 체크섬은 confidence 태그: 주민번호 mod11·카드 Luhn 검증에 실패해도 마스킹은 하되 신뢰도를 낮춥니다. 필터가 아닙니다.
- 문서 내 일관 가명화: 같은 문서 안에서 같은 값은 같은 토큰(
[전화_1])으로 치환됩니다. - 과탐 방지: 주문번호(
2024-0312-8841)나 날짜는 PII가 아니므로 마스킹하지 않습니다. 카드·계좌 bare 숫자열은 강한 구조·문맥이 없으면 보류하고 리포트에 기록합니다.
한계 (정직)
- 자유텍스트 이름·구어체 주소는 결정론 룰로 못 잡습니다. 더 강한 비식별이 필요하면 “이름이나 구어체 주소도 추가로 가려줘”라고 Claude에게 말하세요(이미 마스킹된 텍스트에 한해 2차 리뷰가 동작합니다).
- 계좌는 은행별 자리수가 달라 문맥 키워드에 의존합니다. 문맥 없는 계좌는 놓칠 수 있습니다.
- 계좌 vs 사업자번호 라벨:
123-45-67890처럼3-2-5형태는 사업자등록번호 패턴과 일치할 수 있습니다. 마스킹은 정상(유출 0), 유형 라벨만 어긋날 수 있습니다. - 룰 기반이라 신조어·변형 표기(예: “공일공”)에는 약합니다.
데이터 안전
CS 실데이터는 저장소에 저장하지 않습니다. 검증·테스트는 합성 데이터만 사용하고, 원본 로그는 읽기 전용으로만 다룹니다.