웹 크롤링
개념프로그램으로 웹페이지를 자동으로 읽어 필요한 정보를 수집하는 기법. 매일 사람이 여러 사이트를 돌며 복붙하던 작업을 Skill로 만들면 한 번 만들고 계속 재사용할 수 있다.
동의어: Web Crawling, 웹 스크래핑, Web Scraping
정의
웹 크롤링(Web Crawling)은 프로그램이 자동으로 웹페이지를 방문해 HTML을 읽고, 그 안에서 원하는 정보만 추출하는 기법이다. 엄밀히는 “웹 크롤링”(링크를 따라 여러 페이지를 순회)과 “웹 스크래핑”(특정 페이지에서 데이터 추출)을 구분하지만, 실무에서는 보통 섞어 쓴다.
Before / After
| 단계 | Before (수작업) | After (Skill + 스케줄) |
|---|---|---|
| 정보 수집 | 뉴스 사이트 5곳 열어서 복붙 | 08:50에 자동 수집 |
| 중복 제거 | 제목 눈으로 비교 | 제목 해시로 자동 제거 |
| 요약 | 내가 직접 | Claude가 1장으로 합침 |
| 전달 | 메일 작성 | 텔레그램·이메일 자동 발송 |
전형적인 크롤링 Skill 구조
- 수집 —
fetch또는 브라우저 자동화로 대상 페이지 다운로드 - 파싱 — HTML에서 제목·본문·링크 추출 (selectors or LLM 분석)
- 정제 — 중복 제거, 날짜 정렬, 불필요 태그 제거
- 요약·가공 — 1장 브리핑, 카테고리 분류, 번역 등
- 배포 — 파일 저장, 이메일, 텔레그램, Slack 중 하나 이상
차단에 대응하기
일부 사이트는 봇 접근을 차단한다. 대응 방법:
- User-Agent 설정 — 브라우저처럼 보이게 헤더 변경
web-reader같은 스킬 사용 — 차단된 사이트까지 읽어내도록 최적화된 내장 Skill- 속도 제한 — 요청 간격을 두어 서버 부담을 줄이고 차단 회피
- robots.txt 존중 — 크롤링이 금지된 경로는 피한다
법·윤리적 주의
- 저작권 — 수집한 본문을 그대로 재배포하면 문제가 될 수 있다. 요약·인용 형태로 가공
- 서비스 약관 — 사이트 약관에 크롤링 금지 조항이 있는지 확인
- 개인정보 — 공개 페이지라도 개인정보가 포함된 데이터는 법적 제약이 크다
- 속도 — 공격적인 크롤링은 DDoS와 구분이 안 되므로 초당 요청 수를 제한한다