스킬.잇다

웹 크롤링

개념

프로그램으로 웹페이지를 자동으로 읽어 필요한 정보를 수집하는 기법. 매일 사람이 여러 사이트를 돌며 복붙하던 작업을 Skill로 만들면 한 번 만들고 계속 재사용할 수 있다.

동의어: Web Crawling, 웹 스크래핑, Web Scraping

정의

웹 크롤링(Web Crawling)은 프로그램이 자동으로 웹페이지를 방문해 HTML을 읽고, 그 안에서 원하는 정보만 추출하는 기법이다. 엄밀히는 “웹 크롤링”(링크를 따라 여러 페이지를 순회)과 “웹 스크래핑”(특정 페이지에서 데이터 추출)을 구분하지만, 실무에서는 보통 섞어 쓴다.

Before / After

단계Before (수작업)After (Skill + 스케줄)
정보 수집뉴스 사이트 5곳 열어서 복붙08:50에 자동 수집
중복 제거제목 눈으로 비교제목 해시로 자동 제거
요약내가 직접Claude가 1장으로 합침
전달메일 작성텔레그램·이메일 자동 발송

전형적인 크롤링 Skill 구조

  1. 수집fetch 또는 브라우저 자동화로 대상 페이지 다운로드
  2. 파싱 — HTML에서 제목·본문·링크 추출 (selectors or LLM 분석)
  3. 정제 — 중복 제거, 날짜 정렬, 불필요 태그 제거
  4. 요약·가공 — 1장 브리핑, 카테고리 분류, 번역 등
  5. 배포 — 파일 저장, 이메일, 텔레그램, Slack 중 하나 이상

차단에 대응하기

일부 사이트는 봇 접근을 차단한다. 대응 방법:

  • User-Agent 설정 — 브라우저처럼 보이게 헤더 변경
  • web-reader 같은 스킬 사용 — 차단된 사이트까지 읽어내도록 최적화된 내장 Skill
  • 속도 제한 — 요청 간격을 두어 서버 부담을 줄이고 차단 회피
  • robots.txt 존중 — 크롤링이 금지된 경로는 피한다

법·윤리적 주의

  • 저작권 — 수집한 본문을 그대로 재배포하면 문제가 될 수 있다. 요약·인용 형태로 가공
  • 서비스 약관 — 사이트 약관에 크롤링 금지 조항이 있는지 확인
  • 개인정보 — 공개 페이지라도 개인정보가 포함된 데이터는 법적 제약이 크다
  • 속도 — 공격적인 크롤링은 DDoS와 구분이 안 되므로 초당 요청 수를 제한한다

관련 용어

생성일: 2026-04-16