GLM-4.7-Flash atinge 4.398 tokens/s em H200: benchmarks completos do novo modelo MoE chinês
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
1 artigo encontrado
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .