FOCUS: novo sistema aumenta throughput de Diffusion LLMs em até 3,5x sem perder qualidade
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
5 artigos encontrados
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
Unsloth lança técnicas que permitem treinar modelos de 20B parâmetros com contexto de 20K tokens em GPUs de 24GB usando...
Microsoft Research lança OptiMind, um SLM de 20B parâmetros que traduz problemas de negócio em formulações matemáticas p...
Novo método de agent-guided pruning permite que LLMs decidam adaptativamente como comprimir outros modelos, superando ba...
Multiplex Thinking é uma nova abordagem de raciocínio para LLMs que agrega K tokens candidatos em um único token contínu...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .