GLM-4.7-Flash atinge 4.398 tokens/s em H200: benchmarks completos do novo modelo MoE chinês
A comunidade de IA local acaba de receber benchmarks independentes do GLM-4.7-Flash, o modelo MoE (Mixture of Experts) de 30 bilhões de parâmetros da Zhipu AI que ativa apenas 3 bilhões por token. Os números são impressionantes: 4.398 tokens por segundo em uma única GPU H200 SXM, com latência de primeira token (TTFT) de apenas 35ms para usuário único.
Esse resultado posiciona o modelo como uma alternativa séria para deploy local em cenários de alta demanda — especialmente para tarefas de código, onde o GLM-4.7-Flash alcançou 59.2% no SWE-bench Verified, superando modelos como o Qwen3-30B-A3B.
Para engenheiros que trabalham com inferência em produção, esses benchmarks são particularmente relevantes: demonstram que arquiteturas MoE bem otimizadas podem entregar throughput enterprise em hardware cada vez mais acessível, inclusive em GPUs consumer com quantização adequada.
O QUE FOI ANUNCIADO
O usuário LayerHot do Reddit compartilhou benchmarks detalhados do GLM-4.7-Flash executando em duas configurações distintas:
vLLM em H200 SXM (GPU de datacenter):
- Contexto: 64K tokens
- Dataset: 500 prompts do InstructCoder
- Single user: 207 tok/s, 35ms TTFT
- 32 usuários concorrentes: 2.267 tok/s, 85ms TTFT
- Pico de throughput (sem limite de concorrência): 4.398 tok/s
llama.cpp em RTX 6000 Ada (48GB):
- Contexto: 16K tokens
- Quantizações Unsloth Dynamic:
- Q4_K_XL: 112 tok/s
- Q6_K_XL: 100 tok/s
- Q8_K_XL: 91 tok/s
Os testes foram realizados usando GPUs do provedor jarvislabs.ai, com as quantizações GGUF fornecidas pela Unsloth.
Tabela completa de concorrência (H200 + vLLM)
| Concurrent Users | Decode tok/s | TTFT (median) | TTFT (P99) |
|---|---|---|---|
| 1 | 207 | 35ms | 42ms |
| 2 | 348 | 44ms | 55ms |
| 4 | 547 | 53ms | 66ms |
| 8 | 882 | 61ms | 161ms |
| 16 | 1.448 | 69ms | 187ms |
| 32 | 2.267 | 85ms | 245ms |
VISÃO TÉCNICA SIMPLIFICADA
Arquitetura MoE com MLA
O GLM-4.7-Flash utiliza uma arquitetura 30B-A3B MoE (30 bilhões de parâmetros totais, 3 bilhões ativos por token). Isso significa que o modelo possui 64 "experts" especializados, mas ativa apenas 5 deles para processar cada token — menos que concorrentes como o Qwen3, que ativa 9 de 128 experts.
Essa escolha de design reduz significativamente o overhead computacional enquanto mantém performance competitiva. É como ter 64 especialistas em uma empresa, mas chamar apenas os 5 mais relevantes para cada problema específico.
Multi-Headed Latent Attention (MLA)
O modelo implementa MLA, uma evolução do mecanismo de atenção tradicional que permite processar contextos de até 200K tokens. Para contexto completo, são necessárias 2x H200; para 64K, uma única GPU é suficiente.
Por que o throughput é tão alto?
Três fatores principais:
- Baixa ativação de experts: Com apenas 3B parâmetros ativos, o compute por token é drasticamente menor que modelos densos equivalentes
- Otimização vLLM: O framework suporta especulative decoding otimizado para MoE, com taxa de aceitação acima de 90% usando 1 token especulativo
- Bandwidth da H200: 4.8 TB/s de bandwidth de memória HBM3e permite alimentar o modelo sem gargalos
Quantização Unsloth Dynamic 2.0
Para deploy em hardware consumer, a Unsloth oferece quantizações dinâmicas que preservam accuracy melhor que métodos tradicionais. A versão Q4_K_XL cabe em GPUs de 24GB quando combinada com offloading de camadas MoE para RAM — requerendo cerca de 165GB de memória do sistema.
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance: O throughput de 4.398 tok/s em H200 coloca o modelo no tier de soluções enterprise. Para referência, isso significa processar uma resposta de 500 tokens em ~114ms. Em cenários de alta concorrência, a escalabilidade linear até 32 usuários demonstra que o vLLM está bem otimizado para esse modelo.
💸 Custos: A possibilidade de rodar o modelo em RTX 6000 Ada (ou RTX 4090 com ajustes) a 112 tok/s viabiliza deploy local para equipes menores. O custo de API da Zhipu é $0.07/$0.40 por 1M tokens (input/output) — significativamente mais barato que alternativas ocidentais.
🏗️ Arquitetura: Para contextos até 64K, uma única H200 é suficiente. Isso simplifica arquiteturas de serving que antes requeriam tensor parallelism. O modelo também suporta vLLM, SGLang e llama.cpp, oferecendo flexibilidade de deploy.
🔐 Riscos: O modelo foi treinado exclusivamente em hardware Huawei, o que pode gerar preocupações de compliance em algumas organizações. Além disso, a documentação e suporte em inglês ainda são limitados comparados a modelos ocidentais.
🧪 Maturidade: Weights open-source disponíveis no HuggingFace com suporte day-zero em vLLM. Integração com Ollama prevista para versão 0.14.3. A comunidade LocalLLaMA já está validando ativamente o modelo.
CASOS DE USO REAIS E POTENCIAIS
Code Assistants e IDEs
Com 59.2% no SWE-bench Verified, o modelo é forte candidato para:
- Assistentes de código em IDEs
- Code review automatizado
- Geração de testes unitários
- Refactoring assistido
Chatbots Técnicos
O throughput alto viabiliza chatbots de suporte técnico com respostas rápidas mesmo em horários de pico. A latência de 85ms para 32 usuários concorrentes mantém a experiência fluida.
Agentes Autônomos
A capacidade de contexto longo (200K tokens) e a performance em agentic benchmarks fazem do GLM-4.7 uma opção para:
- Agentes de navegação web
- Automação de workflows
- Orquestradores de ferramentas
Deploy Local/Edge
Com quantizações GGUF, empresas com restrições de dados podem rodar o modelo localmente em RTX 4090/6000, mantendo dados sensíveis on-premise.
Análise de Código Legado
O contexto de 200K tokens permite analisar arquivos grandes ou múltiplos arquivos simultaneamente — útil para entender e documentar codebases legados.
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações Técnicas
- Contexto 200K requer 2x H200: Para uso completo do contexto, o custo de hardware dobra
- Quantização agressiva perde quality: Abaixo de Q4, a degradação de performance é perceptível
- RAM para offloading: Deploy em GPUs consumer (24GB) requer 165-205GB de RAM para offloading de layers MoE
Dependências
- vLLM específico: Requer vLLM com suporte a MoE e MLA, versões antigas não funcionam
- llama.cpp com Jinja: Necessário usar flag
--jinjapara templates corretos - Compilação custom para quantização de cache: Flash Attention requer compilar llama.cpp com
-DGGML_CUDA_FA_ALL_QUANTS=ON
Riscos de Produção
- Treinamento em hardware Huawei: Pode gerar questões de compliance em setores regulados
- Suporte comunitário menor: Menos tutoriais e troubleshooting comparado a Llama/Mistral
- Documentação em chinês predominante: Documentação oficial ainda tem gaps em inglês
Hype vs Realidade
- Os benchmarks são impressionantes, mas foram feitos com dataset específico (InstructCoder)
- Performance real vai variar com tipo de prompt e distribuição de tarefas
- O claim de "superar GPT e Claude" deve ser contextualizado ao SWE-bench específico
O QUE OBSERVAR NOS PRÓXIMOS MESES
Integração Ollama 0.14.3: A chegada do suporte oficial vai democratizar o acesso ao modelo para desenvolvedores que não querem lidar com vLLM ou llama.cpp manual.
Adoção em ferramentas de código: Se IDEs como Cursor ou Continue integrarem o modelo, teremos validação real de mercado.
Benchmarks independentes: A comunidade LocalLLaMA está ativa testando. Espere comparativos mais detalhados contra Qwen3, DeepSeek e modelos da família Llama.
Regulação de modelos chineses: O ambiente geopolítico pode afetar a adoção em mercados ocidentais, especialmente em setores regulados.
Evolução para GLM-4.8: A Zhipu tem ciclo de release rápido. Se o padrão se mantiver, uma versão melhorada pode surgir em Q1-Q2 2026.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente com MoE, otimização de serving com vLLM e deploy local com quantização — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: GLM-4.7-Flash, Mixture of Experts, MoE, vLLM, llama.cpp, GGUF, quantização, Zhipu AI, H200, throughput, inferência local, Multi-Headed Latent Attention, Unsloth
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention
LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...
MaliciousCorgi: extensões de IA populares vazaram código de 1,5 milhão de desenvolvedores
Duas extensões de IA para VS Code com 1,5 milhão de instalações continham código malicioso idêntico que exfiltrava arqui...
Graph Neural Networks para previsão de demanda: por que séries temporais sozinhas não bastam
Previsão de demanda tradicionalmente trata cada SKU isoladamente. Graph Neural Networks mudam isso ao capturar relações...