GLM-4.7 Flash: modelo de 30B parâmetros roda localmente com 24GB de VRAM e atinge 59.2% no SWE-bench
GLM-4.7 Flash usa arquitetura MoE 30B-A3B, ativando apenas 3B parâmetros por token. Roda em GPUs consumer e já tem GGUFs...
1 artigo encontrado
GLM-4.7 Flash usa arquitetura MoE 30B-A3B, ativando apenas 3B parâmetros por token. Roda em GPUs consumer e já tem GGUFs...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .