2026-07-05 14:07
2026년 상반기, 오픈소스 AI 모델 경쟁이 그 어느 때보다 치열해졌습니다. Z.ai의 GLM 5.2, Google의 Gemma 4, Moonshot AI의 Kimi K2.7 Code — 세 모델 모두 강력한 오픈웨이트 모델을 표방하지만 지향점이 다릅니다. 어떤 모델이 내 프로젝트에 맞는지 한 번에 파악해 보겠습니다.
| 항목 | GLM 5.2 | Gemma 4 (31B) | Kimi K2.7 Code |
|---|---|---|---|
| 출시 | 2026년 6월 13일 | 2026년 4월 1일 | 2026년 6월 12일 |
| 개발사 | Z.ai (Zhipu AI) | Google DeepMind | Moonshot AI |
| 아키텍처 | MoE | Dense (31B) / MoE (26B) | MoE |
| 전체 파라미터 | 744B | 31B / 26B | 1T |
| 활성 파라미터 | 40B | 31B / 3.8B | 32B |
| 컨텍스트 윈도우 | 1M 토큰 | 256K 토큰 | 256K 토큰 |
| 최대 출력 | 131,072 토큰 | - | - |
| 라이선스 | MIT | Apache 2.0 | 오픈 웨이트 |
| 멀티모달 | ✅ | ✅ | ✅ |
Z.ai(Zhipu AI)의 GLM 5.2는 Artificial Analysis Intelligence Index v4.1에서 오픈웨이트 1위를 기록하며 주목받았습니다. 744B MoE 구조이지만 실제 추론 시 40B 파라미터만 활성화되어 효율이 높습니다.
가장 두드러진 특징은 1M 토큰 컨텍스트 윈도우입니다. 경쟁 모델들이 대부분 128K~256K를 제공하는 것과 비교하면 압도적입니다. 방대한 문서, 대형 코드베이스, 장시간 대화 이력을 한 번에 처리해야 하는 작업에서 독보적인 강점을 발휘합니다.
high와 max 두 단계의 추론 깊이 설정 가능주의할 점: 전체 744B 파라미터를 로컬에서 구동하려면 매우 고사양 인프라가 필요합니다. 로컬 실행이 목표라면 사전에 VRAM 요구사항을 꼼꼼히 확인하세요.
Google DeepMind의 Gemma 4는 “크기 대비 성능”에서 혁신을 일으켰습니다. 31B Dense 플래그십 모델이 Arena AI 텍스트 리더보드 ELO 1452로 자신보다 최대 20배 큰 모델들을 능가한다는 점이 가장 큰 화제였습니다.
4가지 크기로 출시되어 엣지 디바이스부터 서버까지 폭넓게 사용할 수 있습니다.
Apache 2.0 라이선스로 전환한 것도 큰 의미가 있습니다. 이전 Gemma 시리즈의 커스텀 약관과 달리 스타트업과 기업이 제약 없이 상업적으로 활용할 수 있습니다.
출시 초기 이슈: HuggingFace Transformers의 아키텍처 미인식, QLoRA 파인튜닝 버그 등이 커뮤니티에서 보고되었습니다. 이후 패치로 대부분 해결되었지만, 프로덕션 투입 전 최신 라이브러리 버전을 확인하세요.
Moonshot AI의 Kimi K2.7 Code는 세 모델 중 코딩과 에이전트 자동화에 가장 집중한 모델입니다. 전체 1T 파라미터 MoE 구조이지만 추론 시 32B만 활성화됩니다.
추론 토큰 소모를 30% 줄인 것도 주목할 만합니다. 불필요하게 긴 사고 과정 없이 더 빠르게 정확한 코드를 출력합니다. High-Speed 모드 사용 시 최대 260토큰/초로, API 응답 지연이 중요한 코딩 자동화 파이프라인에서 유리합니다.
| 벤치마크 | GLM 5.2 | Gemma 4 31B | Kimi K2.7 Code |
|---|---|---|---|
| AIME 2026 | 상위권 | 89.2% | 코딩 특화 |
| LiveCodeBench | 강세 | 80% | 최강 |
| τ²-bench (에이전트) | 강세 | 86.4% | 최강 |
| Arena AI ELO | 최상위 | 1452 | 코딩 중심 |
| 컨텍스트 실용성 | 1M (독보적) | 256K | 256K |
세 모델 모두 최상급이지만 강점 영역이 다릅니다. Gemma 4는 수학·추론에서 두각을 나타내고, Kimi K2.7은 코딩·에이전트에 집중하며, GLM 5.2는 긴 컨텍스트를 요구하는 범용 작업에서 앞섭니다.
방대한 문서·코드베이스를 한 번에 처리해야 한다면 → GLM 5.2: 1M 컨텍스트는 현재 오픈웨이트 중 독보적입니다. MIT 라이선스라 법적 리스크도 가장 적습니다.
로컬 GPU 자원이 제한적이고 범용 성능이 필요하다면 → Gemma 4 26B MoE: 활성 파라미터 3.8B로 소비자급 GPU에서 구동되면서도 31B 수준의 성능을 냅니다. Apache 2.0 라이선스도 매력적입니다.
코딩 자동화·에이전트 파이프라인을 구축한다면 → Kimi K2.7 Code: API 비용이 세 모델 중 가장 저렴하고, MCP 도구 연동 등 에이전트 시나리오에 최적화되어 있습니다.
결국 세 모델은 경쟁 관계라기보다 서로 다른 니즈를 채우는 보완 관계에 가깝습니다. 자신의 워크로드를 먼저 파악하고 모델을 고르는 것이 최선입니다.