FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
5 artigos encontrados
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
Unsloth lança técnicas que permitem treinar modelos de 20B parâmetros com contexto de 20K tokens em GPUs de 24GB usando...
StepFun lança Step-Audio-R1.1 open source com 33B parâmetros que bate GPT-Realtime, Gemini e Grok em raciocínio de áudio...
LMCache é uma biblioteca open-source que otimiza inferência de LLMs através de cache inteligente de Key-Value pairs, pro...
Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .