GLM-4.7-Flash atinge 4.398 tokens/s em H200: benchmarks completos do novo modelo MoE chinês
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
3 artigos encontrados
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
GLM-4.7 Flash usa arquitetura MoE 30B-A3B, ativando apenas 3B parâmetros por token. Roda em GPUs consumer e já tem GGUFs...
Novo paper apresenta o Spectral Sphere Optimizer (SSO), que combina descida mais íngreme sob norma espectral com restriç...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .