top of page

가장 저렴하게 Qwen을 쓰는 방법

  • 4월 10일
  • 4분 분량

최종 수정일: 4월 13일


요즘 산업, 직무, 학계 너나할 것 없이 "나만의 AI 에이전트 비서"를 만들고 업무에 적용하고 있습니다. 그런데 막상 계속 쓰다 보면 피할 수 없는 현실과 마주하게 됩니다. 바로 비용입니다. 월 구독료보다 비싼, 나도 모르게 쌓인 API 호출 비용이 청구서로 날아오죠. AI 에이전트는 작업 한 번에 모델을 적게는 수십에서 많게는 수백 번 호출합니다. 스스로 계획을 세우고-도구를 쓰고-결과를 검증하고-다시 호출하는 루프가 반복되기 때문이죠. 에이전트가 똑똑해질수록 API 비용이 함께 올라가는 건 어쩌면 당연한 수순입니다.


그런데 이렇게 매일 쌓이는 API 비용이 과연 지속가능할까요? 쓸수록 적자가 나는 구조라면 아무리 좋은 AI도 프로덕트에 넣기는 어렵습니다. 에이전틱 AI 시대에 우리에게 진짜 필요한 건 더 좋은 모델이 아니라, 더 저렴한 추론입니다. Air API는 바로 이 문제를 풀기 위해 만들어졌습니다.



오픈소스 모델, 에이전트 시대의 현실적인 선택


클로즈드 API(GPT, Claude 등)는 성능은 뛰어나지만, 에이전트처럼 대량 호출하는 워크로드에서는 비용이 빠르게 누적됩니다. 커뮤니티에서 "에이전트 하루 테스트에 수십만 원이 나왔다"는 사례가 심심치 않게 올라오는 이유입니다. 오픈소스 모델은 이 비용 구조를 근본적으로 바꿀 수 있습니다:


  • 토큰 단가를 인프라 제공자가 직접 설정할 수 있어, 클로즈드 API 대비 훨씬 낮은 가격이 가능합니다.

  • Apache 2.0 라이선스라면 상업적 사용에 제약이 없어, 프로덕션 투입 시 법적 리스크가 없습니다.

  • 모델 가중치가 공개되어 있어, 특정 벤더에 종속되지 않습니다.


문제는 오픈소스 모델을 직접 서빙하려면 GPU 확보, 환경 세팅, 스케일링까지 또 다른 비용과 시간이 든다는 점입니다. Air API는 오픈소스 모델의 비용 장점은 그대로 살리면서, 인프라 구축이라는 진입장벽을 없앤 서버리스 API 서비스입니다.



에이전트에 최적화된 모델, Qwen

Air API가 첫 번째 모델 패밀리로 Qwen(큐웬)을 선택한 이유는, 에이전틱 워크로드에 가장 적합한 구조를 갖추고 있기 때문입니다. 현시점 Alibaba의 Qwen 시리즈가 가장 빠르게 성장하고 있는 오픈소스 모델로 주목받는 이유는 명확합니다:


  • MoE 아케텍처로 호출당 비용이 낮습니다. 전체 파라미터 중 일부만 활성화하는 설계 덕분에, 에이전트가 수백 번 반복 호출해도 매 호출마다 적은 연산만 사용합니다. 이런 구조적 효율은 에이전틱 워크로드 비용을 줄이는 큰 강점입니다.

  • 최대 262K 컨텍스트 윈도우로 에이전트의 기억력이 길어집니다. 긴 대화 히스토리, 도구 호출 결과, 코드 리포지토리 전체를 한 번에 넣을 수 있어, 에이전트가 맥락을 잃지 않고 작업을 이어갈 수 있습니다.

  • 텍스트, 이미지, 비디오를 네이티브로 처리합니다. 별도의 멀티모달 파이프라인 없이 하나의 모델로 다양한 입력을 처리할 수 있어, 에이전트 구성이 단순해집니다.


AIEEV의 분산 GPU 인프라 위에서 Qwen 모델을 서빙하면, 이미 효율적인 모델의 비용을 한 번 더 낮출 수 있습니다. Air API는 이 조합을 가장 간단하게 사용할 수 있는 방법입니다.



Air API에서 제공하는 Qwen 모델


Air API는 현재 Qwen 시리즈 중 용도와 비용 구조가 다른 3가지 모델을 제공합니다. 각 모델의 특징과 어떤 상황에 적합한지 살펴보겠습니다.



Qwen3.5-35B-A3B

Mixture-of-Experts(MoE) 아키텍처를 채택한 Qwen3.5의 핵심 모델입니다. 350억 개의 전체 파라미터 중 토큰당 30억 개만 활성화하여 프론티어급 성능을 극소량의 연산으로 달성했고 코딩, 추론, 멀티모달 태스크에서 자신보다 7배 큰 모델을 능가하는 벤치마크 결과를 기록했습니다.

추천 대상

AI 에이전트 개발자, 코딩 어이스턴트 구축 팀, 장문 문서 분석이 필요한 서비스

파라미터

350억 (활성 30억, MoE 아키텍처)

컨텍스트 윈도우

262,144 (출처: alibabacloud)

최대 출력

65,536 (출처: alibabacloud)

라이선스

Apache 2.0

가격

Input (/1M Tokens) : ₩243 ($0.1623) Output (/1M Tokens): ₩1,950 ($1.3)


특징

  • 토큰당 활성 파라미터가 30억에 불과해 추론 비용이 매우 낮음 — 동급 성능 대비 가장 경제적인 선택

  • 텍스트 · 이미지 · 비디오를 네이티브로 처리하는 멀티모달 모델 — 별도 비전 파이프라인 불필요

  • 262K 컨텍스트 윈도우로 긴 문서, 코드 리포지토리 전체를 한 번에 분석 가능


한계

  • MoE 구조 특성상 파인튜닝 안정성이 Dense 모델 대비 낮음

  • 일부 극단적 엣지 케이스에서 Dense 모델 대비 정확도가 소폭 낮을 수 있음



Qwen3.5-9B

9B 파라미터의 Dense 모델이지만, 자신보다 13배 큰 모델(GPT-OSS-120B)을 주요 벤치마크에서 능가합니다. MMLU-Pro 82.5점(>80.8), IFEval 91.5점(>88.9)을 기록하며, 10B 미만 모델 중 가장 강력한 성능을 보여줍니다.

추천 대상

비용에 민감한 스타트업, 멀티모달 챗봇 개발자, 빠른 응답이 필요한 실시간 서비스

파라미터

90억 (Dense)

컨텍스트 윈도우

262K 토큰 (1M 확장 가능)

최대 출력

권장 32,768 토큰 / 복잡한 문제의 경우 81,920 토큰

라이선스

Apache 2.0

가격

Input (/1M Tokens) : ₩75 ($0.05) Output (/1M Tokens): ₩225 ($0.15)


특징

  • 13배 큰 모델을 이기는 뛰어난 추론 성능 — 소형 모델의 비용으로 대형 모델급 품질 확보

  • 텍스트 · 이미지 · 비디오 네이티브 멀티모달 지원, 201개 언어 호환

  • 262K 기본 컨텍스트에서 1M 토큰까지 확장 가능 — 초장문 처리에도 대응


한계

  • 사실 기반 태스크에서 할루시네이션 비율이 높은 편 — RAG 파이프라인과 함께 사용 권장

  • 테이블 추출, 필기 인식 등 문서 처리 특화 태스크에서는 전용 모델 대비 성능이 낮음




Qwen3-TTS (beta)


현재 공개된 오픈소스 라인업은 12Hz 기반의 0.6B·1.7B TTS 시리즈로, 3초 보이스 클로닝과 자연어 기반 보이스 제어를 지원합니다. 한국어를 포함한 10개 언어, 최대 97ms 수준의 초저지연 스트리밍, Base·CustomVoice·VoiceDesign로 나뉜 모델 구성을 통해 다양한 음성 서비스 시나리오를 폭넓게 지원합니다.

추천 대상

음성 AI 서비스 개발자, 콘텐츠 크리에이터, 다국어 음성 안내 시스템 구축 팀

파라미터

17억 (Flagship) - (Base / CustomVoice / VoiceDesign) 6억 (Lightweight) - (Base / CustomVoice)

지원 언어

10개 (한국어, 영어, 중국어, 일본어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어)

라이선스

Apache 2.0

가격

₩120 ($0.08)/ 1,000 characters


특징

  • 3초 음성 샘플 기반 보이스 클로닝(Base), 자연어 설명 기반 보이스 설계(1.7B VoiceDesign), 프리셋 보이스 스타일 제어(CustomVoice)까지 지원

  • 한국어를 포함한 10개 언어 + 0.6B 97ms / 1.7B 101ms 첫 패킷 지연 시간으로 실시간 스트리밍 대응 (출처)

  • Apache 2.0 라이선스로 상업적 사용 무료 — ElevenLabs 대비 대규모 사용 시 비용 절감 효과 극대화


한계

  • VoiceDesign 기능은 현재 1.7B 모델만 지원 — 경량 배포가 필요한 경우 0.6B는 Base / CustomVoice 중심으로 선택 필요

  • 지원 언어가 10개로 제한적 (ElevenLabs 29개, OpenAI TTS 57개 대비)

  • CustomVoice 프리셋 보이스는 9종으로 제한

  • 영어 음성에서 미세한 더빙 느낌이 남아 있음 — 프리미엄 영어 음성이 필요한 경우 한계



📌 전체 모델 가격비교표는 여기서 확인하세요.



지금 바로 시작하세요


Air API는 AIEEV의 분산 GPU 인프라 위에서 운영됩니다. 물리적 데이터센터 없이 전 세계 유휴 GPU를 연결하는 구조이기 때문에, 동일한 모델을 더 낮은 비용으로 제공할 수 있습니다. 비용 걱정 없이 AI를 프로덕트에 통합하세요.



Blog
bottom of page