GLM-4.7-Flash atinge 4.398 tokens/s em H200: benchmarks completos do novo modelo MoE chinês

A
AI Engineering News
· · Atualizado em 21 de janeiro de 2026 · 7 min de leitura
GLM-4.7-Flash atinge 4.398 tokens/s em H200: benchmarks completos do novo modelo MoE chinês

A comunidade de IA local acaba de receber benchmarks independentes do GLM-4.7-Flash, o modelo MoE (Mixture of Experts) de 30 bilhões de parâmetros da Zhipu AI que ativa apenas 3 bilhões por token. Os números são impressionantes: 4.398 tokens por segundo em uma única GPU H200 SXM, com latência de primeira token (TTFT) de apenas 35ms para usuário único.

Esse resultado posiciona o modelo como uma alternativa séria para deploy local em cenários de alta demanda — especialmente para tarefas de código, onde o GLM-4.7-Flash alcançou 59.2% no SWE-bench Verified, superando modelos como o Qwen3-30B-A3B.

Para engenheiros que trabalham com inferência em produção, esses benchmarks são particularmente relevantes: demonstram que arquiteturas MoE bem otimizadas podem entregar throughput enterprise em hardware cada vez mais acessível, inclusive em GPUs consumer com quantização adequada.

O QUE FOI ANUNCIADO

O usuário LayerHot do Reddit compartilhou benchmarks detalhados do GLM-4.7-Flash executando em duas configurações distintas:

vLLM em H200 SXM (GPU de datacenter):

  • Contexto: 64K tokens
  • Dataset: 500 prompts do InstructCoder
  • Single user: 207 tok/s, 35ms TTFT
  • 32 usuários concorrentes: 2.267 tok/s, 85ms TTFT
  • Pico de throughput (sem limite de concorrência): 4.398 tok/s

llama.cpp em RTX 6000 Ada (48GB):

  • Contexto: 16K tokens
  • Quantizações Unsloth Dynamic:
    • Q4_K_XL: 112 tok/s
    • Q6_K_XL: 100 tok/s
    • Q8_K_XL: 91 tok/s

Os testes foram realizados usando GPUs do provedor jarvislabs.ai, com as quantizações GGUF fornecidas pela Unsloth.

Tabela completa de concorrência (H200 + vLLM)

Concurrent Users Decode tok/s TTFT (median) TTFT (P99)
1 207 35ms 42ms
2 348 44ms 55ms
4 547 53ms 66ms
8 882 61ms 161ms
16 1.448 69ms 187ms
32 2.267 85ms 245ms

VISÃO TÉCNICA SIMPLIFICADA

Arquitetura MoE com MLA

O GLM-4.7-Flash utiliza uma arquitetura 30B-A3B MoE (30 bilhões de parâmetros totais, 3 bilhões ativos por token). Isso significa que o modelo possui 64 "experts" especializados, mas ativa apenas 5 deles para processar cada token — menos que concorrentes como o Qwen3, que ativa 9 de 128 experts.

Essa escolha de design reduz significativamente o overhead computacional enquanto mantém performance competitiva. É como ter 64 especialistas em uma empresa, mas chamar apenas os 5 mais relevantes para cada problema específico.

Multi-Headed Latent Attention (MLA)

O modelo implementa MLA, uma evolução do mecanismo de atenção tradicional que permite processar contextos de até 200K tokens. Para contexto completo, são necessárias 2x H200; para 64K, uma única GPU é suficiente.

Por que o throughput é tão alto?

Três fatores principais:

  1. Baixa ativação de experts: Com apenas 3B parâmetros ativos, o compute por token é drasticamente menor que modelos densos equivalentes
  2. Otimização vLLM: O framework suporta especulative decoding otimizado para MoE, com taxa de aceitação acima de 90% usando 1 token especulativo
  3. Bandwidth da H200: 4.8 TB/s de bandwidth de memória HBM3e permite alimentar o modelo sem gargalos

Quantização Unsloth Dynamic 2.0

Para deploy em hardware consumer, a Unsloth oferece quantizações dinâmicas que preservam accuracy melhor que métodos tradicionais. A versão Q4_K_XL cabe em GPUs de 24GB quando combinada com offloading de camadas MoE para RAM — requerendo cerca de 165GB de memória do sistema.

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance: O throughput de 4.398 tok/s em H200 coloca o modelo no tier de soluções enterprise. Para referência, isso significa processar uma resposta de 500 tokens em ~114ms. Em cenários de alta concorrência, a escalabilidade linear até 32 usuários demonstra que o vLLM está bem otimizado para esse modelo.

💸 Custos: A possibilidade de rodar o modelo em RTX 6000 Ada (ou RTX 4090 com ajustes) a 112 tok/s viabiliza deploy local para equipes menores. O custo de API da Zhipu é $0.07/$0.40 por 1M tokens (input/output) — significativamente mais barato que alternativas ocidentais.

🏗️ Arquitetura: Para contextos até 64K, uma única H200 é suficiente. Isso simplifica arquiteturas de serving que antes requeriam tensor parallelism. O modelo também suporta vLLM, SGLang e llama.cpp, oferecendo flexibilidade de deploy.

🔐 Riscos: O modelo foi treinado exclusivamente em hardware Huawei, o que pode gerar preocupações de compliance em algumas organizações. Além disso, a documentação e suporte em inglês ainda são limitados comparados a modelos ocidentais.

🧪 Maturidade: Weights open-source disponíveis no HuggingFace com suporte day-zero em vLLM. Integração com Ollama prevista para versão 0.14.3. A comunidade LocalLLaMA já está validando ativamente o modelo.

CASOS DE USO REAIS E POTENCIAIS

Code Assistants e IDEs

Com 59.2% no SWE-bench Verified, o modelo é forte candidato para:

  • Assistentes de código em IDEs
  • Code review automatizado
  • Geração de testes unitários
  • Refactoring assistido

Chatbots Técnicos

O throughput alto viabiliza chatbots de suporte técnico com respostas rápidas mesmo em horários de pico. A latência de 85ms para 32 usuários concorrentes mantém a experiência fluida.

Agentes Autônomos

A capacidade de contexto longo (200K tokens) e a performance em agentic benchmarks fazem do GLM-4.7 uma opção para:

  • Agentes de navegação web
  • Automação de workflows
  • Orquestradores de ferramentas

Deploy Local/Edge

Com quantizações GGUF, empresas com restrições de dados podem rodar o modelo localmente em RTX 4090/6000, mantendo dados sensíveis on-premise.

Análise de Código Legado

O contexto de 200K tokens permite analisar arquivos grandes ou múltiplos arquivos simultaneamente — útil para entender e documentar codebases legados.

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

  • Contexto 200K requer 2x H200: Para uso completo do contexto, o custo de hardware dobra
  • Quantização agressiva perde quality: Abaixo de Q4, a degradação de performance é perceptível
  • RAM para offloading: Deploy em GPUs consumer (24GB) requer 165-205GB de RAM para offloading de layers MoE

Dependências

  • vLLM específico: Requer vLLM com suporte a MoE e MLA, versões antigas não funcionam
  • llama.cpp com Jinja: Necessário usar flag --jinja para templates corretos
  • Compilação custom para quantização de cache: Flash Attention requer compilar llama.cpp com -DGGML_CUDA_FA_ALL_QUANTS=ON

Riscos de Produção

  • Treinamento em hardware Huawei: Pode gerar questões de compliance em setores regulados
  • Suporte comunitário menor: Menos tutoriais e troubleshooting comparado a Llama/Mistral
  • Documentação em chinês predominante: Documentação oficial ainda tem gaps em inglês

Hype vs Realidade

  • Os benchmarks são impressionantes, mas foram feitos com dataset específico (InstructCoder)
  • Performance real vai variar com tipo de prompt e distribuição de tarefas
  • O claim de "superar GPT e Claude" deve ser contextualizado ao SWE-bench específico

O QUE OBSERVAR NOS PRÓXIMOS MESES

Integração Ollama 0.14.3: A chegada do suporte oficial vai democratizar o acesso ao modelo para desenvolvedores que não querem lidar com vLLM ou llama.cpp manual.

Adoção em ferramentas de código: Se IDEs como Cursor ou Continue integrarem o modelo, teremos validação real de mercado.

Benchmarks independentes: A comunidade LocalLLaMA está ativa testando. Espere comparativos mais detalhados contra Qwen3, DeepSeek e modelos da família Llama.

Regulação de modelos chineses: O ambiente geopolítico pode afetar a adoção em mercados ocidentais, especialmente em setores regulados.

Evolução para GLM-4.8: A Zhipu tem ciclo de release rápido. Se o padrão se mantiver, uma versão melhorada pode surgir em Q1-Q2 2026.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente com MoE, otimização de serving com vLLM e deploy local com quantização — esse tema faz parte dos estudos da AI Engineering Academy.


🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp


Termos relacionados: GLM-4.7-Flash, Mixture of Experts, MoE, vLLM, llama.cpp, GGUF, quantização, Zhipu AI, H200, throughput, inferência local, Multi-Headed Latent Attention, Unsloth

Compartilhar:

Quer ir além das notícias?

Aprenda a construir aplicações com IA na AI Engineering Academy.

Conhecer a Academy

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .

Artigos Relacionados