top of page


GPU 자원을 추론 API로 바꾸는 법
유휴 GPU를 API Capacity로 바꾸는 Distributed GPU Cloud 이야기, 그리고 Ray 💡 핵심 메시지 "아무리 좋은 GPU도 API로 전환되지 않으면 가치가 없습니다." Aircloud는 인프라 하드웨어가 실제 서비스 레이어로 도달할 수 있도록 런타임부터 플랫폼 계층까지의 모든 파이프라인을 연결합니다. 들어가며 요즘 AI 인프라를 이야기하면 가장 먼저 나오는 키워드는 GPU shortage입니다. H100을 얼마나 확보했는지, B200 수급은 어떤지, 데이터센터 전력은 충분한지 같은 이야기가 자연스럽게 따라옵니다. 하지만 실제 서비스를 만들고 운영하다 보면, 문제는 단순히 “GPU가 부족하다”에서 끝나지 않습니다. GPU가 부족한 것도 맞지만, 동시에 이미 존재하는 GPU가 항상 잘 활용되고 있는 것도 아닙니다. 어떤 GPU는 요청이 몰려 과부하 상태이고, 어떤 GPU는 비어 있습니다. 평균 GPU utilization은
5월 29일


AI 구독료는 아직 커피 한 잔입니다. 그런데 에이전트 시대에도 그럴까요?
월 20달러. 지금 AI 구독료는 한국 기준으로 대략 치킨 한 마리, 미국 기준으로는 스타벅스 커피 몇 잔 정도로 느껴집니다. BZCF의 한 글에서는 ChatGPT Plus나 Claude Pro 같은 월 $20 구독료가 미국·싱가포르·독일에서는 월급 대비 약 0.5%, 한국에서는 약 0.75% 수준이지만, 일부 개발도상국에서는 7~20%까지 체감될 수 있다고 비교했습니다. 같은 $20라도 어떤 나라에서는 생산성 도구이고, 어떤 나라에서는 부담스러운 고정비가 됩니다. 그런데 더 중요한 질문은 따로 있습니다. 이 가격이 앞으로도 월 $20에 머물 수 있을까요? 지금 우리가 내는 AI 구독료는 대부분 “대화형 AI” 기준입니다. 사람이 질문하고, 모델이 답하고, 다시 사람이 이어서 묻는 구조입니다. 하지만 AI가 점점 에이전트로 바뀌고 있습니다. 이제 AI는 답변만 하지 않습니다. 계획을 세우고, 검색하고, 파일을 읽고, 코드를 실행하고, 도구를 호출하
5월 22일


Air Cloud 컨테이너에서 Claude Code 실행하기 — SSH 연결부터 AI 코딩까지
안녕하세요, AIEEV입니다. GPU 실험을 시작하려면 먼저 환경부터 잡아야 합니다. CUDA 버전을 맞추고 드라이버를 설치하고 패키지 충돌을 해결하다 보면 어느새 두 시간이 지나 있습니다. 코드 한 줄 못 썼는데도요. Air Cloud는 PyTorch와 CUDA가 미리 구성된 컨테이너를 배포하고 SSH로 바로 접속할 수 있게 해줍니다. 따라서 로컬 환경을 건드릴 필요가 없습니다. 여기에 Claude Code 같은 AI 코딩 에이전트를 연결하면 코드 작성, 디버깅, 실행을 AI와 함께 처리할 수 있습니다. 이번 글에서는 그 방법을 단계별로 안내드리고자 합니다. 이런 분께 추천합니다 GPU가 필요한 ML 실험을 하는데, 노트북 성능이 아쉬운 분 Claude Code를 쓰고 있는데, 원격 서버에서도 그대로 쓰고 싶은 분 VSCode로 원격 GPU 서버에 붙어서 개발하고 싶은 분 준비물 Air Cloud 계정 (aieev.com 가입) Anthropic
5월 14일


AI 모델 배포 비용을 낮추는 두 가지 기술: Quantization과 Prefix Caching
안녕하세요. AIEEV Dev Team의 김진범입니다. 저는 학부와 대학원에서 컴퓨터공학을 전공하고 AIEEV 창업 초기부터 함께하며 Air Cloud에 더 많은 분산 자원이 효율적으로 운영될 수 있도록 기여하고 있습니다 연구생 시절에는 AI 서비스의 성능 향상을 위한 이론적 연구와 실험을 많이 진행했습니다. 하지만 실제 서비스를 운영하다 보니, 좋은 모델과 높은 성능만으로는 충분하지 않다는 것을 알게 되었으며, 중요한 것은 AI 서비스를 사용자가 실제로 사용할 수 있을 만큼 빠르고, 비용 측면에서도 지속 가능하며, 안정적으로 제공할 수 있느냐였습니다. 저희 팀도 분산 GPU 환경에서 서비스를 운영하며 이 문제를 계속 마주해왔습니다. 더 큰 모델을 안정적으로 배포하고, 더 많은 요청을 처리하면서도 응답 지연시간을 일정하게 유지하려면 추론 단계의 최적화가 필요합니다. 모델 크기가 커질수록 GPU 메모리 사용량은 자연스럽게 증가합니다. 여기에 긴 시스
5월 7일


내 GPU 95%가 놀고 있습니다
GPU를 사놓고 5%만 씁니다 2026년 4월, 기업 Kubernetes 클러스터의 평균 GPU 활용률이 5~30%에 머문다는 데이터가 나왔습니다. 시간당 $2 ~ $15(저가형 GPU와 고성능 GPU 평균치)를 소비하는 GPU가 대부분의 시간 동안 아무것도 하지 않고 있습니다. Cast AI 보고서는 사실 더 직접적입니다. 이 보고서에 따르면, 기업들은 실제 필요한 GPU 비용보다 평균 20배를 더 지출하고 있습니다. AI 경쟁에서 밀리지 않으려고 확보한 자원이 확보한 것만으로 비용이 쌓이고 있습니다. Kubernetes 클러스터 자원 활용률 현황 (출처: CAST AI) 그렇다면 왜 GPU는 놀고 있을까? 문제는 기술이 아니라 구조입니다. Kubernetes는 기본적으로 GPU를 분할 없이 할당합니다. 어떤 팀이 GPU를 예약하면, 그 팀이 쓰든 안쓰든 다른 팀은 접근할 수 없습니다. 모델 학습은 하루에 몇 시간이지만 GPU는 24시간 점유됩니
4월 28일


AI 인프라 양극화 시대, 대기업은 $29조를 씁니다
설명을 돕기 위해 AI로 생성된 그림입니다. 몇일 전 Meta가 CoreWeave와 $210억 규모의 AI 클라우드 계약을 2032년까지 연장했습니다. 기존 $142억 계약까지 합산하면 총 $350억이 넘습니다. 한화로 약 50조원입니다. CoreWeave는 이 계약을 발표한 시점 기준으로, 역대 가장 빠르게 $50억 ARR을 돌파한 클라우드 기업이 되었습니다. 숫자 자체보다 중요한 건 이 계약의 구조입니다. 쓸지 안 쓸지 모르는 GPU 용량을 몇 년 단위로 미리 확보하는 방식인 장기 용량 예약 모델은 대형 테크 기업들이 AI 인프라를 선점하기 위해 선택하는 대표적인 전략입니다. 🤔 왜 대형 테크 기업들은 장기 계약을 선택할까요? AI 인프라 경쟁에서 GPU 확보는 제품 출시 속도와 직결됩니다. 필요할 때 수급할 수 있는 시장이 아닙니다. NVIDIA Blackwell 시리즈처럼 수요가 폭발하면, 수급 타이밍을 놓친 기업은 수개월을 기다려야 합
4월 15일


Air API가 출시되었습니다
오픈소스 AI 모델을 직접 서빙하려면, 모델 선택보다 인프라 세팅에 더 많은 시간이 걸립니다. GPU 확보하고, 환경 구성하고, 트래픽에 맞춰 스케일링까지 — 모델 하나 돌리기까지의 과정이 너무 깁니다. 저희 팀이 이 문제를 해결합니다! 오픈소스 AI 모델을 서버리스 API로 제공하는 서비스인 Air API를 드디어 출시하게 되었는데요, 인프라 구축 없이 API 키 하나로 바로 시작할 수 있으니까 지금 바로 테스트해보세요. 주요 특징 💡 OpenAI 호환 엔드포인트 기존에 OpenAI API를 사용하고 계셨다면, 엔드포인트 URL만 바꾸면 됩니다. 코드 수정이 거의 필요 없습니다. 💡 토큰 기반 종량제 월 고정 요금이 아닙니다. 사용한 토큰만큼만 과금됩니다. 💡 인프라 관리 불필요 GPU 확보, 모델 배포, 스케일링을 AIEEV의 분산 GPU 인프라가 처리합니다. 출시 모델 Air API는 Qwen 시리즈 3종부터 시작합니다. 앞으로 점
4월 9일


구글이 발표한 TurboQuant — "비싼 GPU 없이 LLM을 서빙하는 시대"가 가까워지고 있다
80GB GPU는 정말 필수였을까? TurboQuant가 KV 캐시를 압축하면서 LLM 추론 비용 구조가 바뀌고 있습니다.
3월 30일
bottom of page


