top of page

내 GPU 95%가 놀고 있습니다

  • 3일 전
  • 2분 분량



GPU를 사놓고 5%만 씁니다


2026년 4월, 기업 Kubernetes 클러스터의 평균 GPU 활용률이 5~30%에 머문다는 데이터가 나왔습니다. 시간당 $2 ~ $15(저가형 GPU와 고성능 GPU 평균치)를 소비하는 GPU가 대부분의 시간 동안 아무것도 하지 않고 있습니다. Cast AI 보고서는 사실 더 직접적입니다. 이 보고서에 따르면, 기업들은 실제 필요한 GPU 비용보다 평균 20배를 더 지출하고 있습니다. AI 경쟁에서 밀리지 않으려고 확보한 자원이 확보한 것만으로 비용이 쌓이고 있습니다.


Kubernetes 클러스터 자원 활용률 현황 (출처: CAST AI)
Kubernetes 클러스터 자원 활용률 현황 (출처: CAST AI)



그렇다면 왜 GPU는 놀고 있을까?


문제는 기술이 아니라 구조입니다. Kubernetes는 기본적으로 GPU를 분할 없이 할당합니다. 어떤 팀이 GPU를 예약하면, 그 팀이 쓰든 안쓰든 다른 팀은 접근할 수 없습니다. 모델 학습은 하루에 몇 시간이지만 GPU는 24시간 점유됩니다. 팀마다 최악의 상황을 대비해 과할당하고, 실제로 얼마나 쓰는지 실시간으로 보이지 않으니 줄이자는 말을 꺼내기도 어렵습니다.


[AI 생성 이미지] GPU 활용률 5%가 만드는 비용 구조
[AI 생성 이미지] GPU 활용률 5%가 만드는 비용 구조

활용률 5% 라는 최악의 경우를 살펴보겠습니다. 시간당 $2짜리 GPU를 하루 운영한다면 실제 연산에 쓰인 시간은 72분입니다. 나머지 22시간 48분은 비용만 나갑니다. 월 청구서에서 실제 연산 비용은 전체의 5%이고, 나머지 95%는 자원을 점유하는 데 대한 지불입니다.

더 큰 문제는 이 낭비가 잘 보이지 않는다는 점입니다. 클라우드 청구는 팀 단위로 쪼개지고, 각 팀은 자기 비용이 합리적이라고 생각합니다. 전사적으로 합산해보기 전까지 낭비의 전체 규모가 드러나지 않습니다. 20배라는 숫자는 누군가 직접 계산하기 전까지 느끼기 어렵습니다.



어떻게 효율적으로 사용할 수 있을까?


크게 2가지 방식의 접근이 가능합니다.


MIG 아키텍처 (출처: swalloow 블로그)
MIG 아키텍처 (출처: swalloow 블로그)

하나는 내부 최적화입니다. 대표적으로 GPU 타임슬라이싱, MIG(Multi-Instance GPU) 파티셔닝, 팀 간 자원 공유 정책 등으로 기존 인프라의 활용률을 높이는 방법입니다. 이미 확보한 자원에서 더 많은 연산을 뽑아내는 접근입니다.



[AI 생성 이미지] 인프라 구조의 변화
[AI 생성 이미지] 인프라 구조의 변화

다른 하나는 소유 구조 자체를 바꾸는 것입니다. GPU를 직접 소유하는 대신, 필요할 때 접근하는 모델입니다. 서버리스 인프라는 요청이 들어올 때 자원을 할당하고 연산이 끝나면 반환해 유휴 비용이 없습니다. 여기서 필연적으로 'GPU는 어디에 두는가'라는 질문이 생깁니다. 기존에는 이 답이 당연히 데이터센터(Centralized)였지만 이제는 선택지가 넓어지고 있습니다. 기업이나 데이터센터의 유휴 자원 뿐 아니라, 개인이 보유한 GPU와 개인형 AI 디바이스까지 연결해 하나의 클라우드 처럼 사용하는 방식, 즉 분산(Distributed) 클라우드입니다.


Air Cloud는 위 두 가지 접근을 함께 가져갑니다. 내부 최적화를 통해 단일 자원의 효율을 높이는 동시에, 분산된 자원을 연결해 전체 시스템의 활용률을 끌어올리는 구조입니다.



GPU 활용률 5%와 지역 전력 마비가 보내는 진짜 신호


최근 국내 데이터센터는 수도권 집중이 심각합니다. 전체 데이터센터의 약 70%가 수도권에 몰려 있고, 신규 설립의 80% 이상도 수도권에 집중되어 있습니다. 이로 인해 특정 지역에 전력 수요가 과도하게 몰리면서 '전력 병목'과 '입지 제한' 문제가 현실화되고 있습니다.


여기서 아이러니가 발생합니다. GPU 활용률은 낮지만 이를 제공하는 데이터센터를 유지하기 위한 소비 전력은 100% 입니다. 자원 활용률과 무관하게 데이터센터는 도시 단위의 전력 인프라가 부담을 떠안고 있는 구조입니다. 이 문제는 단순한 비용 낭비를 넘어 인프라 구조의 비효율을 그대로 드러냅니다. 기업은 여전히 AI 인프라를 전통적인 서버처럼 접근하고 있습니다. 서버는 항상 켜두는 것이라는 전제. AI 연산은 다릅니다. 학습은 끝나면 끝이고, 추론은 트래픽에 따라 요동칩니다. 24시간 점유보다 탄력적 접근이 비용 구조에 맞습니다.


2025년의 과제가 AI 인프라 확보였다면, 2026년의 과제는 다릅니다. 가지고 있는 AI 인프라를 얼마나 잘 쓸 것인가, 소유에서 접근으로 전환하는 것은 이 낭비를 해결하는 구조적 답입니다.



| 지금 AIEEV의 분산 클라우드를 경험하세요.





*참고 자료

Blog
bottom of page