GLM 5.2 완벽 리뷰: GPT-5.5의 1/6 비용으로 코딩 정복한 오픈소스 AI

2026-06-23 07:06

“GPT-5.5의 1/6 비용으로 코딩 성능은 앞선다.” 2026년 6월, Z.ai(구 Zhipu AI)가 공개한 GLM 5.2에 대한 VentureBeat의 평가입니다. MIT 라이선스 오픈소스로 공개된 744B 파라미터 모델이 어떻게 폐쇄형 최강 모델들을 위협하게 됐는지, 핵심을 파헤쳐 봅니다.

GLM 5.2란 무엇인가?

GLM 5.2는 중국 베이징 소재 AI 스타트업 Z.ai(지푸 AI)가 2026년 6월 13일 자사 GLM 코딩 플랜 구독자에게 선공개하고, 6월 16~17일 전 세계에 MIT 라이선스 오픈 웨이트로 공개한 최신 플래그십 모델입니다. GLM-5 패밀리의 세 번째 주요 릴리스로, 전작 GLM-5.1 대비 장기 실행 과제(Long-Horizon Task) 수행 능력을 비약적으로 향상시킨 것이 핵심입니다.

수 시간에 걸친 대규모 코딩 작업, 복잡한 의존성 관리, 다단계 에이전트 루프를 단일 모델이 안정적으로 처리하는 것을 목표로 설계됐습니다. 독립 벤치마크 기관 Artificial Analysis Intelligence Index v4.1에서 오픈 웨이트 모델 1위(51점)를 달성하며 MiniMax-M3, DeepSeek V4 Pro, Kimi K2.6을 앞섰습니다.

핵심 아키텍처: IndexShare와 MoE

GLM 5.2의 성능 비결은 독창적인 아키텍처 설계에 있습니다. 스펙을 단순 나열하는 대신, 어떤 기술이 왜 강력한지를 이해하면 실제 활용 시 차별점이 보입니다.

MoE(Mixture-of-Experts) 구조

총 744B(일부 표기 기준 753B) 파라미터이지만 토큰당 활성 파라미터는 약 40B에 불과합니다. 추론 시 전체 전문가(Expert) 중 일부만 활성화하는 방식으로, 이 규모의 모델치고는 서빙 비용이 현실적인 이유입니다.

IndexShare 어텐션

GLM 5.2의 가장 주목할 만한 기술 혁신입니다. 기존 희소 어텐션(DSA)은 레이어마다 별도의 인덱서를 연산했지만, IndexShare는 4개 레이어마다 단일 경량 인덱서를 공유합니다. Z.ai 발표 기준 1M 토큰 컨텍스트에서 토큰당 연산량(FLOPs)을 2.9배 절감합니다. 긴 문서나 대형 코드베이스를 다룰 때 속도와 비용이 동시에 유리해지는 이유입니다.

업그레이드된 MTP(Multi-Token Prediction)

투기적 디코딩(Speculative Decoding)을 구동하는 MTP 레이어도 강화됐습니다. 여러 토큰을 미리 예측하고 병렬로 검증하는 방식으로 수락 토큰 길이를 최대 20% 향상시켜, 도구 호출이 빈번한 에이전트 루프에서 체감 속도가 눈에 띄게 빨라집니다.

추론 강도 선택

요청별로 High(빠른 일반 생성)와 Max(심층 다단계 코딩·설계 작업) 두 가지 추론 강도를 선택할 수 있습니다. 모델 자체를 바꾸지 않고 필요에 따라 품질-속도 균형을 조절하는 실용적인 설계입니다.

핵심 스펙 요약

항목	사양
총 파라미터	744B (MoE)
활성 파라미터	~40B/토큰
컨텍스트 창	1,048,576 토큰 (≈ 1M)
라이선스	MIT (완전 무료·상업적 이용 가능)
출력 형식	텍스트, 도구 호출, JSON, 스트리밍
추론 모드	High / Max

벤치마크: 숫자로 보는 성능

코딩·에이전트 벤치마크

GLM 5.2가 설계 목표로 삼은 장기 코딩 에이전트 영역에서의 결과입니다.

SWE-bench Pro 62.1점 — 오픈 웨이트 모델 중 최고, Claude Opus 4.8 대비 격차를 대폭 축소
Terminal-Bench 2.1에서 81.0점 — GLM-5.1 대비 큰 폭 향상
FrontierSWE, PostTrainBench, SWE-Marathon — 세 벤치마크 모두에서 오픈소스 모델 1위, Claude Opus 4.8에만 2위
Design Arena Code 카테고리 리더보드 1위
DeepSWE 46.2% 기록

일반 추론 벤치마크 (GLM-5.1 대비 개선폭)

CritPt(과학적 추론): +16점(+21%) — 개선폭이 가장 두드러진 영역
HLE(Hard Language Evaluation): 유의미한 향상
전반적으로 GLM-5.1 대비 대부분의 평가 지표에서 점수 상승

단, 멀티모달 입력은 지원하지 않습니다. 이미지·영상 처리가 필요하다면 동일 Z.ai 라인업의 GLM-5V-Turbo(Design2Code 94.8점)를 병행 사용하는 것이 권장됩니다.

가격: GPT-5.5의 1/6, 어디서 사용할 수 있나

GLM 5.2의 가장 강력한 무기 중 하나는 압도적인 비용 효율입니다.

모델	입력 (1M 토큰)	출력 (1M 토큰)
GLM 5.2 (Z.ai 공식)	$1.40	$4.40
GPT-5.5	~$8~9 (추정)	~$24~27 (추정)
Claude Opus 4.8	참고용 폐쇄형	—

캐시 입력: 반복되는 긴 프롬프트는 약 $0.26/1M으로 더 저렴하게 처리
GLM 코딩 플랜: 구독 기반으로 일정 토큰을 월정액에 사용 가능, 헤비 유저에게 유리
서드파티 프록시: OrcaRouter( $1.40/$ 4.40), EvoLink( $1.00/$ 3.50~), api.airforce(₩1,608/₩5,052 per 1M) 등 다양한 접근 경로 존재

로컬 실행 시 주의: 전체 가중치를 실행하려면 256GB 이상의 VRAM(또는 CPU RAM+VRAM 혼합)이 필요합니다. 개인 PC에서는 사실상 불가능하며, 양자화(Quantized) 버전이나 Ollama의 소형 버전을 사용하는 것이 현실적입니다.

실사용 후기: 개발자들은 어떻게 평가할까?

출시 이후 국내외 개발자 커뮤니티와 전문 매체의 반응을 종합했습니다.

긍정적 평가

“선 넘은 오픈소스”: 테슬라 차주 유튜버처럼, 여러 개발자들이 “폐쇄형 모델 안 써도 될 것 같다”는 반응을 보임
장기 에이전트 안정성: 수십 단계에 걸친 코딩 태스크를 중간에 멈추거나 루프에 빠지지 않고 완수하는 능력에 대한 호평 다수
맥락 유지력: 1M 컨텍스트를 실제로 활용한 대규모 코드베이스 리팩토링에서 긴 파일 간 참조를 잃지 않는다는 평가
ZCode 에이전트 연동: Z.ai의 공식 데스크탑 에이전트 ZCode에서 Goal Mode(목표 설정 후 자율 완수)가 실제로 작동한다는 후기 다수

한계와 아쉬운 점

도구 호출 포맷 불안정: OpenRouter에서 커스텀 도구 호출 포맷을 따르는 능력이 불완전하다는 보고. 에이전트 파이프라인 직접 구축 시 추가 프롬프트 엔지니어링 필요
오류 누적 문제: 긴 체인 작업에서 단계별로 오류가 누적되는 문제가 완전히 해결되지 않음. Claude Opus 4.8과의 격차가 여전히 존재하는 영역
프런트엔드 완성률: 개별 항목(CSR)은 Claude와 대등하지만 전체 과제 완성률(ISR)은 소폭 뒤처짐
Z.ai 소프트웨어 신뢰 문제: “이번에도 약속 지킬까?”라는 커뮤니티 회의론 존재. 오픈 웨이트 공개와 OTA 업데이트 약속 이행 여부 모니터링 필요
ZCode Linux 불안정: Linux/ARM64 빌드는 Beta 단계로 일부 기능 오동작 보고
하드웨어 장벽: 풀 모델 로컬 실행에 256GB+ VRAM이 필요해 개인 개발자·중소기업에게는 API 의존도가 높을 수밖에 없음

GLM 5.2 vs 경쟁 모델 비교

항목	GLM 5.2	Claude Opus 4.8	GPT-5.5	DeepSeek V4 Pro
라이선스	MIT 오픈	폐쇄형	폐쇄형	오픈
컨텍스트	1M 토큰	200K	128K	128K
SWE-bench Pro	62.1	최상위	비공개	—
AA Index	51점 (1위)	—	—	44점
입력 API 단가	$1.40/1M	~$15/1M	~$9/1M	~$2/1M
멀티모달	✗	✓	✓	✗

이런 분께 추천합니다

GLM 5.2는 모든 AI 사용자에게 최선은 아닙니다. 목적에 맞게 판단하세요.

적극 추천: 대규모 코드베이스를 다루는 백엔드·풀스택 개발자 / 비용 민감한 스타트업이나 1인 개발자 / 오픈소스 AI를 자체 인프라에 통합하려는 팀 / 장기 에이전트 파이프라인을 구축하는 AI 엔지니어
신중히 고려: 멀티모달(이미지 입력)이 반드시 필요한 경우 — GLM-5V-Turbo 병행 필요 / 도구 호출 포맷이 매우 복잡하고 정밀한 에이전트 — 추가 프롬프트 엔지니어링 요구 / 로컬 실행이 목표인데 256GB 이하 환경 — 양자화 버전 또는 API 활용 권장

오픈소스 AI의 역사에서 “폐쇄형 모델의 코딩 성능을 따라잡은” 이정표적 모델로 기록될 가능성이 높습니다. MIT 라이선스라는 점은 특히 강력합니다. 상업적 이용, 수정, 재배포 모두 자유롭기 때문에, GLM 5.2를 기반으로 한 파생 모델과 서비스가 쏟아질 가능성이 높습니다. OTA 방식의 지속적 개선이 이어진다면, 시간이 지날수록 가성비는 더욱 높아질 것입니다.

자주 묻는 질문

Q.GLM 5.2는 무료로 사용할 수 있나요?

A.MIT 라이선스로 오픈 웨이트를 무료 공개해 Hugging Face·GitHub에서 누구나 내려받을 수 있습니다. 다만 로컬 실행에는 256GB 이상 VRAM이 필요합니다. API로 사용할 경우 입력 토큰 1M당 $1.40, 출력 1M당 $4.40으로 GPT-5.5 대비 약 1/6 수준입니다.

Q.GLM 5.2가 GPT-5.5보다 뛰어난 분야는 무엇인가요?

A.장기 코딩(Long-Horizon Coding) 벤치마크인 FrontierSWE, PostTrainBench, SWE-Marathon에서 GPT-5.5를 앞섰습니다. SWE-bench Pro 62.1점으로 오픈 웨이트 모델 중 최고 성능입니다. 단, 멀티모달이나 일반 대화 능력은 여전히 폐쇄형 최강 모델과 격차가 있습니다.

Q.GLM 5.2의 1M 컨텍스트를 실제로 쓰면 비용이 얼마나 드나요?

A.1M 토큰은 약 75만 단어, 한국어 기준 대략 소설 3~4권 분량입니다. 단일 요청에 1M 토큰을 모두 입력하면 약 $1.40(약 1,900원)이 발생합니다. 단, IndexShare 최적화로 기존 모델 대비 연산량이 2.9배 절감되어 대형 컨텍스트에서도 응답 속도가 유지됩니다.

Q.GLM 5.2를 코딩 에이전트로 사용하려면 어떻게 시작하면 되나요?

A.Z.ai의 공식 코딩 에이전트 ZCode를 활용하거나, OpenAI 호환 /v1/chat/completions 엔드포인트로 Cursor·Claude Dev 같은 기존 에디터에 연결할 수 있습니다. HuggingFace에서 가중치를 받아 vLLM·SGLang으로 자체 서빙하는 방식도 지원합니다.

Q.로컬 실행이 어렵다면 어떤 대안이 있나요?

A.Ollama 라이브러리에도 등재되어 있어 소형 양자화 버전 실행이 가능합니다. API는 Z.ai 공식 외에 OrcaRouter, EvoLink, api.airforce 등 서드파티 프록시를 통해서도 이용 가능하며, 가격 차이가 있으므로 비교 후 선택하는 것이 좋습니다.

#IT #AI #오픈소스AI

SPM PL87W 목새 키보드 리뷰: 조용한 사무실도 OK, 가성비 저소음 기계식의 끝판왕

2026.06.16

맥북 네오 완벽 리뷰: 99만원으로 시작하는 진짜 맥북 경험

2026.06.15

Cursor vs Claude Code vs Codex vs 안티그래비티: 2026년 AI 코딩 어시스턴트 4종 완전 비교

2026.06.15

엑셀 수식 막힐 때부터 노코드 자동화까지: 일상에 AI 비서 이식하기

2026.06.14

학원 안 가고 영어 마스터하기: AI를 활용한 맞춤형 외국어 롤플레잉 학습법 완벽 가이드

2026.06.13

10분 만에 끝내는 AI 보고서 & 이메일 작성(ChatGPT·Claude·Gemini) 활용 전략