컨텍스트 윈도우
AI언어 모델이 한 번의 대화 또는 한 번의 요청에서 기억할 수 있는 토큰의 최대량. Claude의 경우 현재 100만 토큰 수준으로, 한국어 책 5~7권을 한 번에 읽고 이해할 수 있다.
동의어: Context Window, 컨텍스트 창, 컨텍스트 용량
정의
컨텍스트 윈도우(Context Window)는 대규모 언어 모델(llm)이 한 번의 추론에서 동시에 참조할 수 있는 최대 토큰 수다. 창(window)이라는 이름처럼, 이 창의 안쪽에 들어온 텍스트만 모델이 “지금 보고 있는” 내용으로 인식한다. 창을 벗어나면 아무리 중요한 내용이어도 잊혀진다.
숫자의 직관 — 100만 토큰이란
| 토큰 수 | 대략 분량 |
|---|---|
| 4,000 토큰 | 짧은 이메일 몇 통 |
| 8,000 토큰 | 기사 한 편 |
| 32,000 토큰 | 짧은 단편 소설 1편 |
| 128,000 토큰 | 중편 소설 1권 (이전 Claude 세대) |
| 1,000,000 토큰 | 한국어 책 5~7권 (현재 Claude 세대) |
Claude의 100만 토큰 컨텍스트는 실무 관점에서 판도를 바꾼 수치다. 수백 페이지 PDF, 전체 코드베이스, 수십 개 파일 묶음을 한 번에 넣고 교차 분석을 요청할 수 있다.
왜 중요한가
복잡한 문서를 “한 번에” 이해
이전 세대 모델은 긴 문서를 잘라서 여러 번 질의하고 결과를 조합해야 했다(청킹). 이 과정에서 문서 전체를 가로지르는 교차 참조가 끊어져 품질이 떨어졌다. 컨텍스트가 커지면서 문서 전체의 일관된 이해가 가능해졌다.
더 긴 대화 유지
에이전트가 여러 단계의 작업을 수행하려면 그동안의 모든 결정·관찰을 기억해야 한다. 컨텍스트가 클수록 에이전트가 더 긴 작업 사이클을 끊기지 않고 이어갈 수 있다.
많은 예시를 한 번에 제공 (Few-shot)
“이런 식으로 답변해 주세요” 예시를 20~30개씩 넣어도 문제없다. 도메인 톤·스타일을 정교하게 조정하는 데 큰 여유가 생긴다.
한계 — “기억한다”와 “잘 쓴다”는 다르다
컨텍스트에 넣는 것과 모델이 그 정보를 잘 활용하는 것은 별개다.
- 중앙 망각(lost in the middle) — 매우 긴 컨텍스트에서 중간 위치의 정보는 앞뒤보다 덜 주목될 수 있다
- 비용 급증 — 넣은 token만큼 요금이 붙는다. 100만 토큰을 매번 넣으면 비싸다
- 지연 증가 — 입력이 길수록 응답 시작까지 기다리는 시간이 늘어난다
실무에서는 “최대 용량”이 아니라 “필요한 만큼만” 넣는 것이 정석이다.
claude-models 간 차이
모든 Claude 모델이 100만 토큰을 제공하는 것은 아니다. 모델별로 컨텍스트 한도가 다를 수 있으며, 같은 모델 안에서도 플랜·API·제품에 따라 실제 허용 한도가 다를 수 있다. Claude Cowork에서 기본으로 쓰는 Sonnet은 일반적인 업무에 충분한 컨텍스트를 제공한다.