월 몇 토큰부터 GPU를 직접 빌리는 게 더 저렴할까?
- 4월 14일
- 6분 분량

AI 서비스를 계속 운영하다 보면 언젠가 이런 궁금증에 마주하게 됩니다.
"지금 우리가 API로 쓰는 게 진짜 저렴한 걸까? 아니면 그냥 GPU를 사서 직접 돌리는 게 낫지 않을까?"
모델 성능이 평준화되면서 이제 승부처는 비용이 되었습니다. 팀마다 자신의 사용량 규모에서 어느 방식이 진짜 저렴한지 계산하기 시작했고, 답은 사용량에 따라 명확히 달라집니다. 이 글에서는 AI 인프라 도입을 고민하는 팀들을 위해 세 가지 선택지의 실제 비용 구조를 숫자로 비교합니다.
세 가지 인프라 운영 방식과 비용 구조
비용을 비교하기 전에, 먼저 각 선택지의 비용 구조를 이해해야 합니다. 같아 보이는 비용도 어떤 방식으로 발생하느냐에 따라, 사용량 규모별로 유불리가 완전히 달라지기 때문입니다.
1. 서버리스 API: 쓴 만큼만 낸다 (고정비 X + 토큰당 과금)
| 비용 구조: 고정비 없음 + 토큰당 과금
토큰 단위로 사용료를 내는 방식입니다. GPU를 직접 관리하지 않아도 되고, 처음 시작할 때 인프라에 큰돈을 쓰지 않아도 된다는 것이 가장 큰 장점입니다. 서비스 트래픽을 예측하기 어렵거나 아직 사용량이 많지 않은 팀이라면, 이 방식이 가장 합리적인 출발점이 됩니다.
2. 클라우드 GPU 렌탈: 시간당 빌린다 (시간당 고정 과금)
| 비용 구조: 시간당 고정 과금 (가동 시간에 비례)
AWS, GCP 등 클라우드에서 GPU 인스턴스를 시간 단위로 빌립니다. 인스턴스가 켜져 있는 시간만큼 비용이 발생하는 구조로, 서버리스 API처럼 사용량에 따라 탄력적이지는 않지만 트래픽이 예측 가능하고 사용량이 일정 규모를 넘어간다면 API보다 유리한 방식이 될 수 있습니다.
3. 자체 호스팅: 직접 구매하고 직접 운영한다
| 비용 구조: 초기 구매비 + 월 전기세 + 유지보수비
GPU를 직접 구매하거나 서버를 구축하는 방식입니다. 초기 투자 비용이 크지만 이후 추가 비용은 전기세와 유지보수비 정도로 줄어드는 구조입니다. 단, 이 단가 경쟁력이 실제로 의미있게 작동하려면 꽤 높은 사용량이 전제되어야 합니다.
자체 호스팅의 실제 비용: 전기세만 내면 된다?
자체 호스팅을 검토하는 팀들이 가장 흔히 빠지는 함정은 "전기세만 내면 된다"는 생각입니다. RTX 4090 기준 실제 비용 구조를 항목별로 들여다보겠습니다.
※ 환율 기준: 1 USD = ₩1,480
항목 | USD | KRW | 비고 |
초기 GPU 구매 | $1,600 | 약 ₩237만 | RTX 4090 소비자용 기준 |
월 전기세 | $46 | 약 ₩68,000 | 250W 평균 소비, $0.12/kWh, 24시간 × 30일 기준 |
24개월 합산 | $2,704 | 약 ₩400만 | 구매비 + 전기세 누적 |
월 상각 비용 | 약 $113/월 | 약 ₩17만/월 | $1,600 ÷ 24개월 + $46 전기세 |
여기서 주목할 점은 이 계산이 순수 전기세 기준이라는 것입니다. GPU 가용성 확보 비용, 유지보수, 모델 업데이트 대응, 트래픽 급증 시 추가 하드웨어 구매 등 실제 운영에서 발생하는 비용은 아직 포함되지 않았습니다. 따라서 실제 TCO(Total Cost of Ownership)는 이보다 훨씬 높은 가격을 가집니다. 이 부분은 뒤에서 다시 언급하도록 하겠습니다.
분기점: 월 몇 토큰부터 자체 호스팅이 유리할까?
서버리스 API의 시장 평균 단가인 $2.00/1M 토큰(출처: devtk.ai)을 기준으로 계산하면, 자체 호스팅(RTX 4090)과의 비용 분기점은 월 약 2,300만 토큰입니다.
그런데 여기서 중요한 전제가 있습니다. $2.00/1M 토큰이라는 기준은 오픈소스 모델 기반 API 시장에서는 꽤 높은 비용에 속합니다. 클로즈드 모델 대비 오픈소스 모델은 다양한 클라우드 업체에서 저렴하게 제공하고 있기 때문에 오픈소스 모델을 사용한다면 API 호출 단가는 낮아지고 분기점은 위로 올라갑니다. 즉, 호출량이 커져도 서버리스 API가 유리한 구간이 훨씬 넓어지게 됩니다.
그렇다면 Air API에서 제공 중인 Qwen 모델 가격을 적용하면 분기점의 숫자가 얼마나 달라지는 지 확인해보겠습니다.
Air API 가격표
모델 | Input (1M tokens) | Output (1M tokens) | 평균 단가 (50:50 기준) |
Qwen3.5-9B | $0.05 (₩75) | $0.15 (₩222) | $0.10 (₩148) |
Qwen3.5-35B-A3B | $0.1623 (₩240) | $1.30 (₩1,924) | $0.73 (약 ₩1,080) |
비용 분기점 비교
API 단가 | 분기점 (월 토큰 기준) | 비고 |
$2.00/1M tokens (시장 평균) | 약 2,300만 tokens | 출처: devtk.ai |
$0.73 (₩1,080)/1M tokens (Qwen3.5-35B-A3B) | 약 1억 5,500만 tokens | Air API 기준 |
$0.10 (₩148)/1M tokens (Qwen3.5-9B) | 약 11억 3,000만 tokens | Air API 기준 |
Qwen3.5-9B를 Air API에서 사용하면, 자체 호스팅보다 저렴한 구간이 월 약 11억 토큰(1.1B)까지 올라갑니다. 대부분의 AI 스타트업과 SaaS팀이 이 규모에 도달하기까지는 상단한 시간이 걸립니다. 따라서 일정 수준의 트래픽에 도달하기 전까지는 지금 당장 인프라에 투자하지 않아도 됩니다.
실제 사용 시나리오별 비용 비교
이론적 분기점보다 더 직관적인 비교를 위해, 실제 월 토큰 사용 시나리오별 세 가지 선택지를 나란히 비교해보겠습니다.
*Air Cloud (클라우드 GPU 렌탈) 기준: RTX 4090 시간당 $0.50 (₩742)
월 토큰 사용량 | Air API (Qwen3.5-9B) | Air Cloud RTX 4090 (하루 10시간 고정) | 자체 호스팅 RTX 4090 (월 상각 고정) |
10M (1,000만) | $1 (₩1,480) | $213 (₩22만) | $113 (₩17만) |
50M (5,000만) | $5 (₩7,400) | $213 (₩22만) | $113 (₩17만) |
100M (1억) | $10 (₩1.5만) | $213 (₩22만) | $113 (₩17만) |
500M (5억) | $50 (약 ₩7.4만) | $213 (₩22만) | $113 (₩17만) |
1B (10억) | $100 (₩15만) | $213 (₩22만) | $113 (₩17만) |
2B (20억) | $200 (₩30만) | $213 (₩22만) | $113 (₩17만) |
5B (50억) | $500 (약 ₩74만) | $213* (₩22만*) | $113* (₩17만*) |
*5B 토큰 이상에서는 RTX 4090 단일 인스턴스의 실질적인 월간 처리 가능 토큰 한계에 근접하므로, 멀티 GPU 구성이 필요합니다.
표를 보면 알 수 있듯이, 월 1.13B 토큰 이하 구간에서는 Air API가 단연 저렴합니다. 고정비가 없기 때문에, 사용량이 적을수록 압도적으로 유리한 구조입니다. 1.13B에서 1.5B 사이 구간에서는 자체 호스팅이 순수 비용 기준으로는 가장 저렴해지지만, 초기 하드웨어 투자 없이 유연하게 운영하고 싶은 팀이라면 Air Cloud가 현실적인 대안이 됩니다. 1.5B 토큰을 넘어서면 Air Cloud가 Air API보다 저렴해지는 구간에 진입하고, 이 시점부터 클라우드 GPU 렌탈이나 전용 인프라 전환을 본격적으로 검토할 수 있습니다.
자체 호스팅의 숨겨진 비용: TCO로 다시 계산하면
앞서 자체 호스팅의 월 비용을 $113으로 잡았지만, 이것은 하드웨어 상각비와 전기세만 고려한 수치입니다. 실제 운영에 들어가면 이야기가 달라집니다.
서버급 GPU(H100, A100)로 올라가면 규모 자체가 달라지는데요, H100 100장($3M, 약 ₩44억 하드웨어)의 실제 5년 TCO는 전력, 냉각, 네트워킹, 인력, 유지보수를 합산하면 $8.6M(약 ₩127억)으로, 하드웨어 구매가의 약 2.9배에 달한다는 분석이 있습니다. (출처: Introl Blog)
중저가형 GPU의 대표 모델인 RTX 4090도 같은 맥락에서 볼 때 계산에서 자주 빠지는 항목들이 있습니다.
숨겨진 비용 항목 | 일반적 산정 방식 | 실제 발생 여부 |
네트워킹/스위치 구성 | 별도 계산 안 함 | 발생 |
모델 업데이트 대응 공수 | 엔지니어 시간 원가 미포함 | 발생 |
스케일링 실패 리스크 | 계산 불가 | 트래픽 피크 시 발생 |
GPU 가용성 확보 어려움 | 구매 가능 전제 | 지정학적 리스크(전쟁 등) 발생 시 GPU·메모리 가격 변동 가능 |
서비스 중단 시 복구 비용 | 제외 | 발생 |
자체 호스팅의 진짜 비용은 전기세 $46가 아닙니다. 인프라를 운영하는 팀의 시간 비용, 장애 대응 비용, 기회 비용까지 고려하면 TCO는 단순 전기세 계산보다 훨씬 큰 숫자를 가집니다.
클라우드 GPU 렌탈이 유리한 구간
자체 호스팅과 서버리스 API 사이에는 명확한 중간 선택지가 있습니다. 바로 클라우드 GPU 렌탈입니다. 사용량이 수억 토큰대를 넘어서거나, 특정 모델을 파인튜닝 해야 하거나, 응답 속도에 민감한 실시간 서비스를 운영하고 있다면 이 선택지를 진지하게 고려해볼 만합니다.
클라우드 GPU 렌탈을 선택해야 하는 경우:
월 토큰 사용량이 예측 가능하고 일정 규모 이상(수억 토큰대)인 팀
특정 모델을 커스터마이징(파인튜닝)하거나 배치 추론이 필요한 팀
서비스 응답 속도(레이턴시)에 민감한 실시간 서비스
자체 호스팅보다 인프라 관리 부담은 줄이면서 단가는 낮추고 싶은 팀
Air Cloud는 RTX 4090 기준 시간당 $0.71(₩742)로, 동급 클라우드 서비스(AWS A10G) 대비 약 40% 저렴합니다. 또한 오토스케일링 기능을 통해 사용량 기반으로 자원 활용을 최적화하며 트래픽 변동이 큰 서비스에서 유휴 GPU 비용 낭비를 줄일 수 있습니다.
결론: 어느 시점에 무엇을 선택해야 하는가
AI 인프라 의사결정의 핵심은 "지금 나의 사용량 규모"에서 가장 저렴한 옵션을 선택하는 것입니다.
아래 그래프는 월 토큰 사용량에 따라 세 선택지의 비용이 어떻게 교차하는지 보여줍니다. (Qwen3.5-9B, RTX 4090 단일 카드, Air Cloud 하루 10시간 가동 기준)

보라선: Air API (Qwen3.5-9B, $0.10/1M tokens 평균) — 사용량에 비례해 선형 증가
초록선: Air Cloud RTX 4090 (시간당 $0.50 × 하루 10시간 × 30일 = $150/월) — 수평 고정
주황선: 자체 호스팅 RTX 4090 ($113/월 상각) — 수평 고정
손익 분기점 2개:
1.13B 토큰/월 : 이 지점 이상이 되면 자체 호스팅이 Air API보다 저렴해집니다.
1.5B 토큰/월 : 이 지점 이상이 되면 Air Cloud GPU 인스턴스 대여가 API보다 저렴해집니다.
대부분의 AI 스타트업과 SaaS 팀은 초기~중기 단계에서 첫 번째 분기점(1.13B)에 도달하는 데도 상당한 시간이 걸립니다.
사용량 구간 | 권장 선택지 | 이유 |
월 1.13B 토큰 이하 | 서버리스 API (Air API) | 고정비 없음, 인프라 관리 불필요, 단가 경쟁력 |
월 1.5B~10B 토큰 | 클라우드 GPU 렌탈 (Air Cloud) | API 대비 단가 하락, 초기 투자 없이 유연한 스케일링 |
월 10B 토큰 이상 | 전용 인프라 (Private Air Cloud / 자체 호스팅) | 대규모에서 단가 절감 가능, TCO 면밀히 계산 필요 |
AI 인프라를 고민할 때는, 현재 서비스가 어느 구간에 위치해 있는지 정확히 파악하는 것이 출발점입니다. 초기에는 서버리스 API로 빠르게 시작하고, 트래픽이 일정 수준으로 예측 가능해지면 클라우드 GPU 렌탈로 전환, 이후 대규모 운영이 필요한 시점에 전용 인프라를 검토하는 흐름이 가장 합리적입니다.
어디서부터 시작해야 할지 고민된다면, AIEEV 팀이 현재 상황에 맞는 인프라 전략을 함께 설계해드립니다. 특히 Air Cloud의 GPU 인스턴스 대여(Air Container)는 6개월 이상 예약 시 최대 25% 할인 혜택이 적용되어, 일정 수준 이상의 트래픽에서는 비용 구조를 빠르게 개선할 수 있습니다.
지금 단계에 맞는 선택부터 가볍게 시작해보세요!
참고 자료
Effloow — Self-Hosting LLMs vs Cloud APIs: Cost, Performance & Privacy in 2026
Introl Blog — GPU Infrastructure TCO 5-Year Cost Model
DEV Community — https://dev.to/czmilo/qwen3-tts-the-complete-2026-guide-to-open-source-voice-cloning-and-ai-speech-generation-1in6
AI Tool Analysis — https://aitoolanalysis.com/qwen3-tts-review/


