FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
4 artigos encontrados
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...
Google DeepMind anuncia Gemini 3 Flash, modelo que combina capacidades de fronteira com otimização agressiva de velocida...
Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .