스킬.잇다
pii-redact 아이콘
CS 스킬팩

pii-redact

정보 마스킹 실험적 v0.1.1
pii-redact 스킬을 표현한 수채 일러스트 — AI generated by codex (gpt-5.5)

PII Redact 활용 가이드

CS 상담·문의 텍스트를 Claude나 외부에 넣기 전, 개인정보(PII)를 먼저 가리는 안전 입구입니다. Claude에게 말로 부탁하면 됩니다 — “이 상담 로그 비식별화해줘”처럼요.

이 한 줄이면 스킬이 전화·이메일·주민번호·카드·계좌·주소 등을 결정론 룰로 검출해 [전화_1] 형식 플레이스홀더로 치환하고, 무엇을 몇 건 가렸는지 마스킹 리포트를 함께 남깁니다.


이렇게 말해보세요

하고 싶은 것이렇게 말하세요
로그 비식별화”이 상담 로그 비식별화해줘”
개인정보 가리기”개인정보 가려줘”
익명화”이거 안전하게 익명화해줘”
PII 마스킹”PII 마스킹해줘”

활용 시나리오

CS 로그를 비식별화하기

파일 또는 붙여넣은 텍스트를 주면 비식별 텍스트와 마스킹 리포트(JSON)가 나옵니다.

이 상담 로그 비식별화해줘

리포트의 유형별 건수(by_type)와 보류 항목(low_confidence_skipped)을 함께 해석해 알려줍니다.

다른 CS 스킬의 입구 전처리로 쓰기

aspect-sentiment·cs-intent 같은 CS 분석 스킬에 raw 로그를 넣기 전, 이 스킬을 먼저 통과시킵니다.

이 로그를 비식별화해서 측면감정 분석에 넘겨줘

최대 재현율이 필요할 때

일반적으로 카드번호·계좌번호처럼 구조·문맥이 불분명한 숫자열은 주문번호 오인을 막기 위해 보류합니다. 더 강한 비식별이 필요하면 이렇게 말하세요.

보류된 항목까지 모두 마스킹해서 비식별화해줘

리포트만 받고 싶을 때

비식별 텍스트 없이 마스킹 내역 리포트만 필요하다면 이렇게 말하세요.

이 로그에서 개인정보가 몇 건 검출됐는지 리포트만 줘

결과 검증하기

비식별 리포트에 원문 PII가 새지 않았는지 점검합니다.

이 마스킹 리포트가 안전한지 검증해줘

스킬이 리포트의 원문 PII 유출 여부(키 화이트리스트)·유형별 건수 합·토큰 치환 반영을 점검합니다.


  • 결정론 로컬 우선: raw 텍스트는 LLM에 먼저 넣지 않고 정규식/룰로 먼저 가립니다. LLM 2차 리뷰는 이미 마스킹된 텍스트에만 적용되며 기본은 꺼져 있습니다.
  • 재현율 우선: 누락(PII 유출)이 과제거(본문 훼손)보다 위험하다고 보고 설계됐습니다. 단 무엇을 가렸는지는 마스킹 리포트로 투명하게 보고합니다.
  • 체크섬은 confidence 태그: 주민번호 mod11·카드 Luhn 검증에 실패해도 마스킹은 하되 신뢰도를 낮춥니다. 필터가 아닙니다.
  • 문서 내 일관 가명화: 같은 문서 안에서 같은 값은 같은 토큰([전화_1])으로 치환됩니다.
  • 과탐 방지: 주문번호(2024-0312-8841)나 날짜는 PII가 아니므로 마스킹하지 않습니다. 카드·계좌 bare 숫자열은 강한 구조·문맥이 없으면 보류하고 리포트에 기록합니다.

한계 (정직)

  • 자유텍스트 이름·구어체 주소는 결정론 룰로 못 잡습니다. 더 강한 비식별이 필요하면 “이름이나 구어체 주소도 추가로 가려줘”라고 Claude에게 말하세요(이미 마스킹된 텍스트에 한해 2차 리뷰가 동작합니다).
  • 계좌는 은행별 자리수가 달라 문맥 키워드에 의존합니다. 문맥 없는 계좌는 놓칠 수 있습니다.
  • 계좌 vs 사업자번호 라벨: 123-45-67890처럼 3-2-5 형태는 사업자등록번호 패턴과 일치할 수 있습니다. 마스킹은 정상(유출 0), 유형 라벨만 어긋날 수 있습니다.
  • 룰 기반이라 신조어·변형 표기(예: “공일공”)에는 약합니다.

데이터 안전

CS 실데이터는 저장소에 저장하지 않습니다. 검증·테스트는 합성 데이터만 사용하고, 원본 로그는 읽기 전용으로만 다룹니다.