Claude Code 한도 초과 줄이는 설정 6가지 정리

클로드 코드 토큰 절약 방법 6가지 — Pro 플랜도 오래 쓰는 실전 설정

클로드 코드 토큰 절약 방법 6가지

클로드 코드(Claude Code)를 쓰다 보면 "분명 별로 안 쓴 것 같은데 왜 벌써 한도 초과지?" 싶은 순간이 생깁니다. 클로드 코드 토큰 절약은 사용량을 줄이는 게 아니라, AI가 불필요한 정보를 다시 읽지 않도록 컨텍스트를 관리하는 것입니다. 유튜버 짐코딩님이 정리한 6가지 실전 설정을 바탕으로, Pro 플랜 사용자도 바로 적용할 수 있는 방법을 정리했습니다.

토큰이 빨리 닳는 진짜 이유

AI는 사람처럼 기억하지 않습니다. 카카오톡 단톡방에 비유하면, 새 메시지를 보낼 때마다 AI는 대화방의 맨 처음부터 끝까지 전부 다시 읽습니다. 대화가 길어지고 참조 파일이 많아질수록 비용이 기하급수적으로 늘어나는 이유가 여기 있습니다.

주요 원인은 크게 세 가지입니다. 전체 재읽기(Re-reading)로 인한 누적 비용, 이전 작업의 에러 로그나 불필요한 파일이 남아 토큰을 잡아먹는 컨텍스트 오염, 그리고 컨텍스트가 꽉 차면 AI가 틀린 답을 내놓는 할루시네이션 악순환입니다. 질문을 많이 해서가 아니라, AI의 작동 방식과 우리의 사용 습관이 맞지 않아서 발생하는 구조적 문제입니다.

✅ 이런 분께 이 글이 도움됩니다

  • Claude Code Pro 플랜 사용 중 한도 초과가 잦은 분
  • API 키로 사용 중 토큰 비용이 예상보다 많이 나오는 분
  • 클로드 코드를 쓸수록 응답 품질이 떨어진다고 느끼는 분

절약법 1 — 모델을 역할에 맞게 나눠 써라

클로드 코드는 기본적으로 Opus를 사용하는데, 모든 작업에 가장 비싼 모델을 쓸 필요는 없습니다. 계획(Plan)은 Opus가, 실행(Code)은 Sonnet이 담당하도록 설정하는 게 가장 효율적인 조합입니다.

/model opusplan

이 명령어 하나로 계획 수립에만 Opus 4.6을 사용하고, 실제 코드 작성은 빠르고 저렴한 Sonnet이 처리합니다. 계획 승인 후 모델이 자동 전환되므로 따로 신경 쓸 필요도 없습니다. 단순 반복 코딩 작업이라면 처음부터 /model sonnet으로 고정해도 충분합니다.

절약법 2 — /clear로 작업마다 기억을 지워라

하나의 기능 구현이 끝났다면 반드시 /clear 명령어로 세션을 초기화하세요. 이전 작업의 에러 로그, 테스트 결과, 논의 내용이 고스란히 남아 있으면 다음 작업에서도 AI가 그것을 전부 다시 읽습니다.

로그인 기능을 끝내고 갑자기 디자인 수정으로 넘어간다면, 차라리 새 세션으로 시작하는 편이 훨씬 가볍습니다.

⚠️ 맥락이 끊기면 안 될 때는?

/clear 전에 클로드에게 "지금까지 한 작업 요약과 앞으로 할 일을 .md 파일로 저장해줘"라고 요청하세요. 새 세션에서 그 파일을 넘기면 맥락을 저렴하게 복원할 수 있습니다.

절약법 3 — /compact로 맥락은 유지하되 압축하라

작업이 길어져서 컨텍스트가 쌓였지만 흐름을 완전히 끊을 수 없을 때는 /compact를 사용합니다. Claude가 이전 대화 내용을 자동으로 요약·압축하여 토큰 부피를 줄이면서 맥락은 유지합니다.

/compact
/compact API 사용법과 코드 샘플을 중심으로 압축해줘

특정 내용을 보존하며 압축할 수도 있습니다. /clear는 새 작업 시작 시, /compact는 긴 작업 중간에 사용하는 식으로 상황에 맞게 나눠 쓰는 것이 포인트입니다.

절약법 4 — 적응형 사고 강도를 낮춰라

클로드 코드는 기본적으로 확장 사고(적응형 사고)가 켜져 있습니다. AI가 답변 전에 "생각하는 과정" 자체에도 상당량의 토큰이 소모되는데, 이게 출력 토큰으로 과금됩니다. 최신 모델(Opus 4.6 이후)은 Claude가 요청의 복잡도를 스스로 판단해 얼마나 생각할지 결정하는 적응형 방식으로 바뀌었지만, 단순 작업에는 강도를 낮추는 것이 효과적입니다.

  • 간단한 작업: /effort low
  • 완전히 끄기: /config에서 사고 비활성화
  • API 사용자: MAX_THINKING_TOKENS=8000 환경 변수 설정

💡 핵심 포인트

복잡한 설계나 버그 추론이 필요한 순간에만 높게 유지하고, 평상시에는 낮게 두는 게 비용 대비 효과가 큽니다.

절약법 5 — 필요한 파일만 열어라

"이 프로젝트 전체 봐줘"라고 하면 AI가 수십 개의 파일을 탐색합니다. 그 탐색 자체가 토큰 소비입니다. 클로드 코드 토큰 절약의 핵심은 "말을 아끼자"가 아니라 "지금 작업에 필요한 것만 보여주자"입니다.

  • ❌ "이 프로젝트 auth 부분 고쳐줘"
  • ✅ "auth.ts 파일의 login 함수만 봐줘"

또한 .claudeignore 파일을 만들어 AI가 읽을 필요 없는 경로를 제외하면 됩니다.

.claudeignore 예시 node_modules/  ·  dist/  ·  build/
*.png  ·  *.jpg  ·  *.gif
*.log  ·  tmp/  ·  .cache/

절약법 6 — CLAUDE.md를 가볍게 관리하라

CLAUDE.md는 세션 시작 시 항상 컨텍스트에 로드됩니다. 여기에 온갖 내용을 넣어두면 PR 검토를 하든 간단한 버그 수정을 하든 매번 그 토큰이 소비됩니다. Anthropic 공식 문서 기준으로 200줄 이하를 권장합니다.

  • CLAUDE.md: 모든 작업에 공통으로 필요한 핵심 규칙만 남긴다
  • SKILL.md: 특정 작업에만 필요한 내용은 별도 파일로 분리해, 필요할 때만 로드되게 한다

💡 핵심 포인트

CLAUDE.md가 길수록 모든 작업에서 그 토큰을 고스란히 지불합니다. 자주 쓰지 않는 내용은 과감히 별도 스킬 파일로 빼는 것이 장기적으로 훨씬 이득입니다.

6가지 절약법 한눈에 비교

방법 명령어 / 설정 효과 추천 상황
모델 분리 /model opusplan 비용 절반 이하 항상
세션 초기화 /clear 즉각적 절약 기능 단위 완료 후
맥락 압축 /compact 맥락 유지하며 절약 긴 작업 중간
사고 강도 조절 /effort low 출력 토큰 감소 단순 반복 작업
파일 범위 제한 .claudeignore 입력 토큰 수십 배 절약 대형 프로젝트
CLAUDE.md 경량화 200줄 이하 유지 세션당 고정비 감소 항상

직접 써보며 느낀 점

Pro 플랜을 사용하다 보니 어느새 습관이 하나 생겼습니다. 작업 중간중간 설정 화면을 열어 사용량을 직접 확인하는 것인데요. 실시간으로 토큰 잔량을 보여주는 기능이 아직 없다 보니, 불안한 마음에 수시로 들여다보게 됩니다. 클로드 측에서 대시보드 형태로 지원해 주면 좋겠지만, 아직은 직접 체크하는 수밖에 없는 상황입니다.

저는 Opus 모델은 최대한 아끼고 Sonnet을 주로 쓰는 방식으로 이미 어느 정도 조정하고 있었습니다. 그런데 이 영상을 보고 나서, 알고는 있었지만 실제로 적용하지 않았던 방법들이 꽤 있다는 걸 새삼 깨달았습니다. Sonnet을 쓰더라도 적응형 사고가 켜져 있으면 생각하는 과정에서 추가 토큰이 소모된다는 건 미처 챙기지 못했고, /compact나 .claudeignore 같은 설정도 알면서 잘 쓰지 않았던 부분이었습니다. 조금 더 적극적으로 컨텍스트를 관리하면 Pro 플랜에서도 체감 사용 시간이 꽤 늘어날 것 같습니다.

한 가지 더 생각해 본 건, 클로드 코드만 고집하지 않는 것입니다. ChatGPT Plus 플랜에서도 Codex를 사용할 수 있으니, 두 도구를 상황에 맞게 번갈아 쓰는 방식이 장기적으로 더 효율적일 수 있겠다는 생각이 듭니다. 한 도구가 한도에 걸렸을 때 다른 도구로 넘어가면 작업 흐름이 끊기지 않는 것도 장점이고요.

📌 핵심 요약

  • AI는 매 요청마다 대화 전체를 다시 읽는다 — 길이 = 비용
  • 모델을 역할로 나누면 (/model opusplan) 비용이 절반 이하로 줄어든다
  • 기능 완료 후 /clear, 흐름 유지 필요 시 /compact로 나눠 쓴다
  • 단순 작업엔 /effort low로 적응형 사고 강도를 낮춘다
  • 필요한 파일만 열고, CLAUDE.md는 200줄 이하로 유지한다

마무리

클로드 코드 토큰 절약의 핵심은 "덜 쓰는 것"이 아니라 AI가 필요한 것만 읽도록 환경을 만드는 것입니다. 오늘 소개한 6가지 중 /model opusplan과 /clear·/compact 조합만 먼저 적용해도 체감 차이가 상당합니다.

Pro 플랜이든 API 키 사용이든, 컨텍스트 엔지니어링을 습관으로 들이면 같은 비용으로 훨씬 더 오래, 더 좋은 품질로 클로드 코드를 쓸 수 있습니다.

자주 묻는 질문 (FAQ)

Q. /clear를 하면 이전 작업 내용이 완전히 사라지나요?

네, 세션 기억이 초기화됩니다. 다만 실제 파일 변경 내용은 남습니다. 맥락이 필요하다면 /clear 전에 작업 요약을 .md로 저장해 두세요. 새 세션에서 그 파일을 넘기면 맥락을 저렴하게 복원할 수 있습니다.

Q. /compact와 /clear 중 어떤 것을 써야 하나요?

작업 단위가 완전히 끝났다면 /clear, 같은 작업을 이어가면서 컨텍스트만 줄이고 싶다면 /compact입니다. 두 명령어를 상황에 따라 번갈아 쓰는 게 가장 효율적입니다.

Q. 확장 사고와 적응형 사고는 다른 건가요?

개념은 같고 작동 방식이 진화한 것입니다. 기존 확장 사고는 토큰 예산을 직접 숫자로 지정했고, 최신 모델(Opus 4.6 이후)의 적응형 사고는 Claude가 요청의 복잡도를 스스로 판단해 얼마나 생각할지 결정합니다. /effort 파라미터로 강도만 조절하면 됩니다.

Q. CLAUDE.md는 어디까지 줄여야 하나요?

Anthropic 공식 문서 기준은 약 200줄 이하입니다. "모든 작업에서 항상 필요한가?"를 기준으로 정리하면 됩니다. 특정 작업에만 쓰이는 규칙은 SKILL.md 등 별도 파일로 분리해 필요할 때만 로드되게 하세요.

Q. Pro 플랜과 API 키 사용 중 어느 쪽에서 절약 효과가 더 큰가요?

API 키 사용자는 토큰당 직접 비용이 나가므로 절약 효과가 금전적으로 바로 반영됩니다. Pro 플랜 사용자는 한도 초과 빈도가 줄어드는 형태로 체감합니다. 두 경우 모두 이 설정들을 적용하면 실사용 시간이 늘어납니다.

클로드 코드 더 잘 쓰고 싶다면?

짐코딩 GymCoding 채널의 원본 영상에서 실제 데모와 상세 설명을 확인하세요.

▶ 원본 영상 보러 가기

이 블로그의 인기 게시물

AI 블로그를 시작합니다: 배우면서 기록하는 인공지능 이야기

AI에게 잘 물어보는 법: 좋은 답변을 얻는 질문법 5가지

ChatGPT vs Claude, 둘 다 써본 솔직한 차이