top of page


AI 모델 배포 비용을 낮추는 두 가지 기술: Quantization과 Prefix Caching
안녕하세요. AIEEV Dev Team의 김진범입니다. 저는 학부와 대학원에서 컴퓨터공학을 전공하고 AIEEV 창업 초기부터 함께하며 Air Cloud에 더 많은 분산 자원이 효율적으로 운영될 수 있도록 기여하고 있습니다 연구생 시절에는 AI 서비스의 성능 향상을 위한 이론적 연구와 실험을 많이 진행했습니다. 하지만 실제 서비스를 운영하다 보니, 좋은 모델과 높은 성능만으로는 충분하지 않다는 것을 알게 되었으며, 중요한 것은 AI 서비스를 사용자가 실제로 사용할 수 있을 만큼 빠르고, 비용 측면에서도 지속 가능하며, 안정적으로 제공할 수 있느냐였습니다. 저희 팀도 분산 GPU 환경에서 서비스를 운영하며 이 문제를 계속 마주해왔습니다. 더 큰 모델을 안정적으로 배포하고, 더 많은 요청을 처리하면서도 응답 지연시간을 일정하게 유지하려면 추론 단계의 최적화가 필요합니다. 모델 크기가 커질수록 GPU 메모리 사용량은 자연스럽게 증가합니다. 여기에 긴 시스
5월 7일


에어클라우드 4월 업데이트
AirCloud의 4월 릴리스는 AI 워크로드를 더 빠르게 실행하고, 더 안정적으로 운영하며, 보유 GPU 자원까지 유연하게 활용할 수 있도록 하는 데 초점을 맞췄습니다. 이번 업데이트에는 Air Container 운영 기능 강화, Air API 정식 GA, Resource Provider, RP 지원, 그리고 지능형 스케줄러 도입이 포함됩니다. 개발자는 컨테이너 접속과 로그 확인, 오류 대응, API 연동을 더 간단하게 처리할 수 있고, 기업·기관·GPU 보유 사업자는 보유 GPU 자원을 AirCloud 리소스 풀에 연결해 더 유연하게 활용할 수 있습니다. 1. Air Container 기능 보강 AI 워크로드를 운영할 때 가장 자주 필요한 작업은 컨테이너에 접속하고, 로그를 확인하고, 문제 상황을 빠르게 파악하는 것입니다. 이번 릴리스에서는 Air Container의 접속성, 운영 가시성, 제어 편의성을 전반적으로 개선했습니다. SSH 접속 지
4월 29일


명령어 하나로 끝내는 Air API 연동: ClawHub 플러그인 이야기
안녕하세요, 개발팀에서 DevOps/SRE를 담당하고 있는 이창윤입니다. 최근 Air API 출시와 함께 저희 팀은 인프라 모니터링 체계를 구축하고 있습니다. 이번 글에서는 그 과정에서 개발한 OpenClaw 플러그인을 소개하려고 합니다 🙂 시작하기 전에 OpenClaw를 한동안 써본 분이라면 한 번쯤 이런 상황을 겪어보셨을 겁니다. 외부 모델 프로바이더를 연결하려는 순간, 설정 메뉴를 뒤적이고 Base URL을 복사-붙여넣기 하고 사용할 모델마다 엔드포인트를 손으로 하나씩 등록하는 그 과정을요. 하다보면 동작은 하는데, 세팅이 유쾌하지는 않습니다. 이 글에서는 저희 팀이 개발한 플러그인을 통해 plugins install 명령어 하나가 이 모든 반복을 어떻게 없애는지를 소개해보도록 하겠습니다. 그리고 그 뒤에서는 실제로 무슨 코드가 돌아가는지까지도 함께 들여다보겠습니다. 기존 방식: Custom Provider, 모델마다 반복 아래 그림처럼
4월 16일
bottom of page
