컨텍스트 윈도우 — 용어 사전

정의

컨텍스트 윈도우(Context Window)는 대규모 언어 모델(llm)이 한 번의 추론에서 동시에 참조할 수 있는 최대 토큰 수다. 창(window)이라는 이름처럼, 이 창의 안쪽에 들어온 텍스트만 모델이 “지금 보고 있는” 내용으로 인식한다. 창을 벗어나면 아무리 중요한 내용이어도 잊혀진다.

숫자의 직관 — 100만 토큰이란

토큰 수	대략 분량
4,000 토큰	짧은 이메일 몇 통
8,000 토큰	기사 한 편
32,000 토큰	짧은 단편 소설 1편
128,000 토큰	중편 소설 1권 (이전 Claude 세대)
1,000,000 토큰	한국어 책 5~7권 (현재 Claude 세대)

Claude의 100만 토큰 컨텍스트는 실무 관점에서 판도를 바꾼 수치다. 수백 페이지 PDF, 전체 코드베이스, 수십 개 파일 묶음을 한 번에 넣고 교차 분석을 요청할 수 있다.

왜 중요한가

복잡한 문서를 “한 번에” 이해

이전 세대 모델은 긴 문서를 잘라서 여러 번 질의하고 결과를 조합해야 했다(청킹). 이 과정에서 문서 전체를 가로지르는 교차 참조가 끊어져 품질이 떨어졌다. 컨텍스트가 커지면서 문서 전체의 일관된 이해가 가능해졌다.

더 긴 대화 유지

에이전트가 여러 단계의 작업을 수행하려면 그동안의 모든 결정·관찰을 기억해야 한다. 컨텍스트가 클수록 에이전트가 더 긴 작업 사이클을 끊기지 않고 이어갈 수 있다.

많은 예시를 한 번에 제공 (Few-shot)

“이런 식으로 답변해 주세요” 예시를 20~30개씩 넣어도 문제없다. 도메인 톤·스타일을 정교하게 조정하는 데 큰 여유가 생긴다.

한계 — “기억한다”와 “잘 쓴다”는 다르다

컨텍스트에 넣는 것과 모델이 그 정보를 잘 활용하는 것은 별개다.

중앙 망각(lost in the middle) — 매우 긴 컨텍스트에서 중간 위치의 정보는 앞뒤보다 덜 주목될 수 있다
비용 급증 — 넣은 token만큼 요금이 붙는다. 100만 토큰을 매번 넣으면 비싸다
지연 증가 — 입력이 길수록 응답 시작까지 기다리는 시간이 늘어난다

실무에서는 “최대 용량”이 아니라 “필요한 만큼만” 넣는 것이 정석이다.

claude-models 간 차이

모든 Claude 모델이 100만 토큰을 제공하는 것은 아니다. 모델별로 컨텍스트 한도가 다를 수 있으며, 같은 모델 안에서도 플랜·API·제품에 따라 실제 허용 한도가 다를 수 있다. Claude Cowork에서 기본으로 쓰는 Sonnet은 일반적인 업무에 충분한 컨텍스트를 제공한다.

정의#

숫자의 직관 — 100만 토큰이란#

왜 중요한가#

복잡한 문서를 “한 번에” 이해#

더 긴 대화 유지#

많은 예시를 한 번에 제공 (Few-shot)#

한계 — “기억한다”와 “잘 쓴다”는 다르다#

claude-models 간 차이#

관련 용어