FOCUS: novo sistema aumenta throughput de Diffusion LLMs em até 3,5x sem perder qualidade
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
6 artigos encontrados
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
vLLM-MLX permite rodar LLMs, modelos de visão, áudio e TTS nativamente em Macs com Apple Silicon, alcançando 464 tok/s n...
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
Novo método de agent-guided pruning permite que LLMs decidam adaptativamente como comprimir outros modelos, superando ba...
OpenAI anuncia parceria com Cerebras para adicionar 750MW de capacidade computacional de alta velocidade, focando em red...
Multiplex Thinking é uma nova abordagem de raciocínio para LLMs que agrega K tokens candidatos em um único token contínu...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .