GLM-4.7-Flash atinge 4.398 tokens/s em H200: benchmarks completos do novo modelo MoE chinês

A comunidade de IA local acaba de receber benchmarks independentes do GLM-4.7-Flash, o modelo MoE (Mixture of Experts) de 30 bilhões de parâmetros da Zhipu AI que ativa apenas 3 bilhões por token. Os números são impressionantes: 4.398 tokens por segundo em uma única GPU H200 SXM, com latência de primeira token (TTFT) de apenas 35ms para usuário único.

Esse resultado posiciona o modelo como uma alternativa séria para deploy local em cenários de alta demanda — especialmente para tarefas de código, onde o GLM-4.7-Flash alcançou 59.2% no SWE-bench Verified, superando modelos como o Qwen3-30B-A3B.

Para engenheiros que trabalham com inferência em produção, esses benchmarks são particularmente relevantes: demonstram que arquiteturas MoE bem otimizadas podem entregar throughput enterprise em hardware cada vez mais acessível, inclusive em GPUs consumer com quantização adequada.

O QUE FOI ANUNCIADO

O usuário LayerHot do Reddit compartilhou benchmarks detalhados do GLM-4.7-Flash executando em duas configurações distintas:

vLLM em H200 SXM (GPU de datacenter):

Contexto: 64K tokens
Dataset: 500 prompts do InstructCoder
Single user: 207 tok/s, 35ms TTFT
32 usuários concorrentes: 2.267 tok/s, 85ms TTFT
Pico de throughput (sem limite de concorrência): 4.398 tok/s

llama.cpp em RTX 6000 Ada (48GB):

Contexto: 16K tokens
Quantizações Unsloth Dynamic:
- Q4_K_XL: 112 tok/s
- Q6_K_XL: 100 tok/s
- Q8_K_XL: 91 tok/s

Os testes foram realizados usando GPUs do provedor jarvislabs.ai, com as quantizações GGUF fornecidas pela Unsloth.

Tabela completa de concorrência (H200 + vLLM)

Concurrent Users	Decode tok/s	TTFT (median)	TTFT (P99)
1	207	35ms	42ms
2	348	44ms	55ms
4	547	53ms	66ms
8	882	61ms	161ms
16	1.448	69ms	187ms
32	2.267	85ms	245ms

VISÃO TÉCNICA SIMPLIFICADA

Arquitetura MoE com MLA

O GLM-4.7-Flash utiliza uma arquitetura 30B-A3B MoE (30 bilhões de parâmetros totais, 3 bilhões ativos por token). Isso significa que o modelo possui 64 "experts" especializados, mas ativa apenas 5 deles para processar cada token — menos que concorrentes como o Qwen3, que ativa 9 de 128 experts.

Essa escolha de design reduz significativamente o overhead computacional enquanto mantém performance competitiva. É como ter 64 especialistas em uma empresa, mas chamar apenas os 5 mais relevantes para cada problema específico.

Multi-Headed Latent Attention (MLA)

O modelo implementa MLA, uma evolução do mecanismo de atenção tradicional que permite processar contextos de até 200K tokens. Para contexto completo, são necessárias 2x H200; para 64K, uma única GPU é suficiente.

Por que o throughput é tão alto?

Três fatores principais:

Baixa ativação de experts: Com apenas 3B parâmetros ativos, o compute por token é drasticamente menor que modelos densos equivalentes
Otimização vLLM: O framework suporta especulative decoding otimizado para MoE, com taxa de aceitação acima de 90% usando 1 token especulativo
Bandwidth da H200: 4.8 TB/s de bandwidth de memória HBM3e permite alimentar o modelo sem gargalos

Quantização Unsloth Dynamic 2.0

Para deploy em hardware consumer, a Unsloth oferece quantizações dinâmicas que preservam accuracy melhor que métodos tradicionais. A versão Q4_K_XL cabe em GPUs de 24GB quando combinada com offloading de camadas MoE para RAM — requerendo cerca de 165GB de memória do sistema.

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance: O throughput de 4.398 tok/s em H200 coloca o modelo no tier de soluções enterprise. Para referência, isso significa processar uma resposta de 500 tokens em ~114ms. Em cenários de alta concorrência, a escalabilidade linear até 32 usuários demonstra que o vLLM está bem otimizado para esse modelo.

💸 Custos: A possibilidade de rodar o modelo em RTX 6000 Ada (ou RTX 4090 com ajustes) a 112 tok/s viabiliza deploy local para equipes menores. O custo de API da Zhipu é $0.07/$0.40 por 1M tokens (input/output) — significativamente mais barato que alternativas ocidentais.

🏗️ Arquitetura: Para contextos até 64K, uma única H200 é suficiente. Isso simplifica arquiteturas de serving que antes requeriam tensor parallelism. O modelo também suporta vLLM, SGLang e llama.cpp, oferecendo flexibilidade de deploy.

🔐 Riscos: O modelo foi treinado exclusivamente em hardware Huawei, o que pode gerar preocupações de compliance em algumas organizações. Além disso, a documentação e suporte em inglês ainda são limitados comparados a modelos ocidentais.

🧪 Maturidade: Weights open-source disponíveis no HuggingFace com suporte day-zero em vLLM. Integração com Ollama prevista para versão 0.14.3. A comunidade LocalLLaMA já está validando ativamente o modelo.

CASOS DE USO REAIS E POTENCIAIS

Code Assistants e IDEs

Com 59.2% no SWE-bench Verified, o modelo é forte candidato para:

Assistentes de código em IDEs
Code review automatizado
Geração de testes unitários
Refactoring assistido

Chatbots Técnicos

O throughput alto viabiliza chatbots de suporte técnico com respostas rápidas mesmo em horários de pico. A latência de 85ms para 32 usuários concorrentes mantém a experiência fluida.

Agentes Autônomos

A capacidade de contexto longo (200K tokens) e a performance em agentic benchmarks fazem do GLM-4.7 uma opção para:

Agentes de navegação web
Automação de workflows
Orquestradores de ferramentas

Deploy Local/Edge

Com quantizações GGUF, empresas com restrições de dados podem rodar o modelo localmente em RTX 4090/6000, mantendo dados sensíveis on-premise.

Análise de Código Legado

O contexto de 200K tokens permite analisar arquivos grandes ou múltiplos arquivos simultaneamente — útil para entender e documentar codebases legados.

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

Contexto 200K requer 2x H200: Para uso completo do contexto, o custo de hardware dobra
Quantização agressiva perde quality: Abaixo de Q4, a degradação de performance é perceptível
RAM para offloading: Deploy em GPUs consumer (24GB) requer 165-205GB de RAM para offloading de layers MoE

Dependências

vLLM específico: Requer vLLM com suporte a MoE e MLA, versões antigas não funcionam
llama.cpp com Jinja: Necessário usar flag --jinja para templates corretos
Compilação custom para quantização de cache: Flash Attention requer compilar llama.cpp com -DGGML_CUDA_FA_ALL_QUANTS=ON

Riscos de Produção

Treinamento em hardware Huawei: Pode gerar questões de compliance em setores regulados
Suporte comunitário menor: Menos tutoriais e troubleshooting comparado a Llama/Mistral
Documentação em chinês predominante: Documentação oficial ainda tem gaps em inglês

Hype vs Realidade

Os benchmarks são impressionantes, mas foram feitos com dataset específico (InstructCoder)
Performance real vai variar com tipo de prompt e distribuição de tarefas
O claim de "superar GPT e Claude" deve ser contextualizado ao SWE-bench específico

O QUE OBSERVAR NOS PRÓXIMOS MESES

Integração Ollama 0.14.3: A chegada do suporte oficial vai democratizar o acesso ao modelo para desenvolvedores que não querem lidar com vLLM ou llama.cpp manual.

Adoção em ferramentas de código: Se IDEs como Cursor ou Continue integrarem o modelo, teremos validação real de mercado.

Benchmarks independentes: A comunidade LocalLLaMA está ativa testando. Espere comparativos mais detalhados contra Qwen3, DeepSeek e modelos da família Llama.

Regulação de modelos chineses: O ambiente geopolítico pode afetar a adoção em mercados ocidentais, especialmente em setores regulados.

Evolução para GLM-4.8: A Zhipu tem ciclo de release rápido. Se o padrão se mantiver, uma versão melhorada pode surgir em Q1-Q2 2026.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente com MoE, otimização de serving com vLLM e deploy local com quantização — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: GLM-4.7-Flash, Mixture of Experts, MoE, vLLM, llama.cpp, GGUF, quantização, Zhipu AI, H200, throughput, inferência local, Multi-Headed Latent Attention, Unsloth