FOCUS: novo sistema aumenta throughput de Diffusion LLMs em até 3,5x sem perder qualidade
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
3 artigos encontrados
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .