웹 크롤링

개념

프로그램으로 웹페이지를 자동으로 읽어 필요한 정보를 수집하는 기법. 매일 사람이 여러 사이트를 돌며 복붙하던 작업을 Skill로 만들면 한 번 만들고 계속 재사용할 수 있다.

동의어: Web Crawling, 웹 스크래핑, Web Scraping

정의

웹 크롤링(Web Crawling)은 프로그램이 자동으로 웹페이지를 방문해 HTML을 읽고, 그 안에서 원하는 정보만 추출하는 기법이다. 엄밀히는 “웹 크롤링”(링크를 따라 여러 페이지를 순회)과 “웹 스크래핑”(특정 페이지에서 데이터 추출)을 구분하지만, 실무에서는 보통 섞어 쓴다.

Before / After

단계	Before (수작업)	After (Skill + 스케줄)
정보 수집	뉴스 사이트 5곳 열어서 복붙	08:50에 자동 수집
중복 제거	제목 눈으로 비교	제목 해시로 자동 제거
요약	내가 직접	Claude가 1장으로 합침
전달	메일 작성	텔레그램·이메일 자동 발송

전형적인 크롤링 Skill 구조

수집 — fetch 또는 브라우저 자동화로 대상 페이지 다운로드
파싱 — HTML에서 제목·본문·링크 추출 (selectors or LLM 분석)
정제 — 중복 제거, 날짜 정렬, 불필요 태그 제거
요약·가공 — 1장 브리핑, 카테고리 분류, 번역 등
배포 — 파일 저장, 이메일, 텔레그램, Slack 중 하나 이상

차단에 대응하기

일부 사이트는 봇 접근을 차단한다. 대응 방법:

User-Agent 설정 — 브라우저처럼 보이게 헤더 변경
web-reader 같은 스킬 사용 — 차단된 사이트까지 읽어내도록 최적화된 내장 Skill
속도 제한 — 요청 간격을 두어 서버 부담을 줄이고 차단 회피
robots.txt 존중 — 크롤링이 금지된 경로는 피한다

법·윤리적 주의

저작권 — 수집한 본문을 그대로 재배포하면 문제가 될 수 있다. 요약·인용 형태로 가공
서비스 약관 — 사이트 약관에 크롤링 금지 조항이 있는지 확인
개인정보 — 공개 페이지라도 개인정보가 포함된 데이터는 법적 제약이 크다
속도 — 공격적인 크롤링은 DDoS와 구분이 안 되므로 초당 요청 수를 제한한다

관련 용어

스케줄 실행 Claude Cowork 커스텀 커넥터