#llm-serving

Artigos sobre llm-serving

3 artigos encontrados

Papers·2 de fevereiro de 2026

Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...

Ferramentas·20 de janeiro de 2026

FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...

Ferramentas·14 de janeiro de 2026

Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .