AI 구독료는 아직 커피 한 잔입니다. 그런데 에이전트 시대에도 그럴까요?

4일 전
4분 분량

월 20달러.

지금 AI 구독료는 한국 기준으로 대략 치킨 한 마리, 미국 기준으로는 스타벅스 커피 몇 잔 정도로 느껴집니다. BZCF의 한 글에서는 ChatGPT Plus나 Claude Pro 같은 월 $20 구독료가 미국·싱가포르·독일에서는 월급 대비 약 0.5%, 한국에서는 약 0.75% 수준이지만, 일부 개발도상국에서는 7~20%까지 체감될 수 있다고 비교했습니다. 같은 $20라도 어떤 나라에서는 생산성 도구이고, 어떤 나라에서는 부담스러운 고정비가 됩니다.

그런데 더 중요한 질문은 따로 있습니다.

이 가격이 앞으로도 월 $20에 머물 수 있을까요?

지금 우리가 내는 AI 구독료는 대부분 “대화형 AI” 기준입니다. 사람이 질문하고, 모델이 답하고, 다시 사람이 이어서 묻는 구조입니다. 하지만 AI가 점점 에이전트로 바뀌고 있습니다. 이제 AI는 답변만 하지 않습니다. 계획을 세우고, 검색하고, 파일을 읽고, 코드를 실행하고, 도구를 호출하고, 실패하면 다시 시도하고, 결과를 검증합니다. 겉으로는 똑같이 “질문 한 번”처럼 보이지만, 안에서는 전혀 다른 일이 벌어집니다.

API Call 하나에서, 작은 프로젝트 하나로

기존 AI 사용은 단순했습니다.

사용자가 질문합니다. → 모델이 답합니다. 끝입니다.

이 구조에서는 비용도 비교적 예측 가능합니다. 입력 토큰과 출력 토큰이 있고, 그 합계에 따라 비용이 계산됩니다. 하지만 AI 에이전트는 다릅니다. 사용자가 “이 코드 리뷰해줘”라고 말하면, 에이전트는 단순히 답변하지 않습니다.

저장소를 읽고 →변경 파일을 확인하고 → 테스트 로그를 보고 →관련 문서를 찾고 →의심되는 부분을 다시 열고 →수정안을 만들고 →다시 검증합니다. 사용자는 한 번 요청했지만, 내부에서는 여러 번의 모델 호출과 도구 호출이 발생합니다.

Anthropic의 도구 사용 문서에 따르면, 도구를 쓰는 요청은 일반 입력·출력 토큰뿐 아니라 도구 이름, 설명, 스키마, tool_use 블록, tool_result 블록까지 토큰으로 포함됩니다. 즉, “AI가 도구를 쓴다”는 것은 단순히 기능이 하나 추가되는 것이 아니라, 매 호출마다 추가 컨텍스트가 붙는다는 뜻입니다.

채팅형 AI에서는 질문 하나가 답변 하나로 끝날 수 있습니다. 에이전트형 AI에서는 질문 하나가 수십 번의 중간 행동으로 쪼개집니다. 그리고 그 중간 행동들은 대부분 공짜가 아닙니다. 앞으로 더욱 공짜가 아니게 될 겁니다.

토큰 비용은 선형이 아니라 복리처럼 느껴집니다.

문제는 에이전트가 이전 작업 맥락을 계속 들고 간다는 점입니다.

첫 번째 호출에서는 사용자의 요청만 들어갑니다.두 번째 호출에서는 요청과 첫 번째 결과가 함께 들어갑니다.세 번째 호출에서는 요청, 첫 번째 결과, 두 번째 결과, 도구 응답이 함께 들어갑니다. 이런 식으로 컨텍스트가 커집니다.

단순 예시로 보면 이렇습니다.

일반 API 호출은 3,000 토큰으로 끝날 수 있습니다.하지만 에이전트가 10단계로 일하고, 단계마다 컨텍스트가 커진다면 전체 토큰 사용량은 3,000 토큰이 아니라 수만~수십만 토큰이 될 수 있습니다. 그래서 에이전트 비용은 “질문 수”로 계산하면 안 됩니다. “업무 단위”로 봐야 합니다.

GitHub도 에이전트 워크플로가 모든 Pull Request마다 자동 실행될 경우 API 비용이 눈에 띄지 않게 누적될 수 있다고 설명했습니다. 특히 MCP 도구 스키마가 매 요청의 컨텍스트에 포함되면, GitHub MCP 서버처럼 도구가 많은 경우 한 턴마다 10~15KB의 스키마가 추가될 수 있고, 사용하지 않는 도구 38개도 매 요청마다 비용으로 따라붙을 수 있습니다.

AI 에이전트는 일 잘하는 인턴이 아니라, 말할 때마다 회의록 전체를 다시 읽는 인턴에 가깝습니다.

일은 잘합니다. 하지만 매번 읽고, 생각하고, 도구를 부르고, 다시 읽습니다. 그래서 비용이 커집니다.

월 $20 구독료는 이미 한계에 부딪히고 있습니다

현재 소비자 입장에서는 AI 구독료가 여전히 저렴해 보입니다. OpenAI는 ChatGPT Plus를 $20 플랜으로, Pro를 $100 및 $200 플랜으로 나누고 있습니다. Plus는 가벼운 사용, Pro $100은 실제 프로젝트 단위 사용, Pro $200은 병렬 프로젝트와 고강도 워크플로를 위한 플랜으로 설명됩니다.

이 변화는 단순한 가격 인상이 아닙니다. 사용 방식이 바뀌었기 때문에 가격표도 바뀌는 것입니다.

젠슨황은 엔비디아 2026 회계연도 1분기 실적 발표에서 “AI 추론 토큰 생성량이 1년 만에 10배 증가했다”고 말했습니다. 그리고 이어서 AI 에이전트가 주류가 될수록 AI 컴퓨팅 수요는 더 빠르게 상승할 것이라고 설명했습니다. 즉, 단순히 사람들이 챗봇을 더 많이 쓰는 정도의 증가가 아니라, 에이전트가 일을 하기 시작하면서 추론 자체가 새로운 산업 수요가 된다는 뜻입니다.

AI를 가끔 대화하는 도구로 쓰면 월 $20라는 가격은 지속가능합니다. 하지만 AI에게 일을 시키기 시작하면 월 $20은 더 이상 자연스러운 가격이 아닐 수 있습니다.

에이전트는 모델보다 인프라를 먼저 태웁니다

AI 업계는 오랫동안 모델 성능을 이야기했습니다. 누가 더 똑똑한가.누가 더 긴 글을 이해하는가. 누가 코딩을 더 잘하는가.누가 추론을 더 잘하는가. 하지만 에이전트 시대의 진짜 질문은 조금 다릅니다.

그 성능을 얼마에 제공할 수 있는가?

모델이 아무리 좋아도, 한 작업을 처리할 때 토큰을 너무 많이 태우면 지속 가능하지 않습니다. 사용자가 늘수록 손실이 커지고, 기업 고객이 늘수록 인프라 부담이 커집니다.

그래서 앞으로 AI 기업의 경쟁력은 모델 성능만으로 결정되지 않습니다.

토큰을 얼마나 아끼는가. GPU를 얼마나 잘 쓰는가. 캐시를 얼마나 잘 설계하는가. 도구 호출을 얼마나 줄이는가.작은 모델과 큰 모델을 얼마나 잘 라우팅하는가. 유휴 자원을 얼마나 효율적으로 재활용하는가. 어떤 인프라 위에서 운영되고 있는가.

GPU도 마찬가지입니다

토큰 비용의 뒤에는 GPU가 있습니다. 그리고 GPU는 비쌉니다. 더 큰 문제는 비싼 GPU가 항상 바쁘게 일하지 않는다는 점입니다.

Cast AI의 2026년 Kubernetes 최적화 보고서에 따르면, 분석 대상 클러스터에서 평균 GPU 활용률은 5% 수준이었습니다. CPU 활용률은 8%, 메모리는 20%였고, GPU는 특히 비용이 큰 자원임에도 대부분의 시간이 놀고 있었습니다.

95%는 비용만 나가고 있다는 뜻입니다.

AI 기업이 에이전트를 제공하려면 더 많은 추론, 더 많은 컨텍스트, 더 많은 도구 실행을 감당해야 합니다. 그런데 그 뒤의 GPU가 5%만 일하고 있다면, 구독료를 낮게 유지하기 어렵습니다. 지금은 투자금과 대형 인프라 계약, 클라우드 크레딧, 가격 보조가 이 비용을 흡수하고 있을 수 있습니다. 하지만 사용량이 폭발하면 이야기가 달라집니다.

대화형 AI에서는 사용자가 질문을 해야 비용이 발생합니다. 에이전트형 AI에서는 사용자가 자리를 비운 동안에도 비용이 발생합니다. 예약된 작업, 자동 코드 리뷰, 백그라운드 리서치, 문서 정리, 이메일 처리, CRM 업데이트, 데이터 분석, 보고서 작성. AI가 일을 대신할수록, 토큰은 더 많이 흐르고 GPU는 더 오래 돌아갑니다.

커피 한 잔짜리 AI는 오래가지 않을 수 있습니다

지금 AI 구독료는 커피 한 잔처럼 느껴집니다. 하지만 그 가격은 “사람이 가끔 묻는 AI”에 맞춰진 가격입니다.앞으로의 AI는 “사람 대신 계속 일하는 AI”가 됩니다. 그때부터 비용의 단위는 질문이 아니라 작업이 됩니다.작업의 단위는 답변이 아니라 추론 루프가 됩니다. 추론 루프의 단위는 토큰과 GPU 시간이 됩니다. 그래서 AI 구독료의 미래는 단순히 “월 $20이냐, $100이냐, $200이냐”의 문제가 아닙니다.

당신의 AI서비스는 지속가능한 인프라 위에서 동작하시나요?

AI 에이전트 시대의 핵심은 “가장 큰 GPU 클러스터를 누가 갖고 있는가”만이 아닙니다. 필요한 추론을, 필요한 위치에서, 가장 낮은 비용으로 실행할 수 있는가가 중요해집니다.

이 관점에서 분산형 클라우드는 단순한 기술 트렌드가 아닙니다. AI 서비스의 원가 구조를 바꾸는 운영 방식입니다. 모든 요청을 비싼 중앙 GPU로 보내는 기업과, 작업 성격에 따라 중앙 클라우드·분산 클라우드·엣지 GPU·캐시·소형 모델을 조합하는 기업의 비용 구조는 시간이 갈수록 크게 벌어질 수밖에 없습니다.

에이전트가 더 많이 일할수록 토큰은 더 많이 탑니다. 토큰이 더 많이 탈수록 GPU는 더 많이 필요합니다. GPU가 더 많이 필요할수록, 인프라를 어디에 두고 어떻게 배분하느냐가 중요해집니다.

결국 AI 에이전트 시대에는 모델 성능만으로 이길 수 없습니다. 모델을 지속 가능한 인프라 위에서 굴릴 수 있는 기업만 살아남습니다.

학생/연구생 프로모션 이벤트(Air Cloud Research) 연장 + 후기 작성 선착순 5명, Air Pod 4 증정 🎁 ( ~ 5/31)