AI ENGINEERING NEWS

#vllm

Artigos sobre vllm

5 artigos encontrados

FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção

Ferramentas·20 de janeiro de 2026

FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção

FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...

Unsloth libera RL com contexto 7x maior: treine modelos de 20B com 20K tokens em GPU de 24GB

Ferramentas·15 de janeiro de 2026

Unsloth libera RL com contexto 7x maior: treine modelos de 20B com 20K tokens em GPU de 24GB

Unsloth lança técnicas que permitem treinar modelos de 20B parâmetros com contexto de 20K tokens em GPUs de 24GB usando...

Step-Audio-R1.1: modelo open source de áudio com raciocínio supera GPT, Gemini e Grok em benchmark

Ferramentas·15 de janeiro de 2026

Step-Audio-R1.1: modelo open source de áudio com raciocínio supera GPT, Gemini e Grok em benchmark

StepFun lança Step-Audio-R1.1 open source com 33B parâmetros que bate GPT-Realtime, Gemini e Grok em raciocínio de áudio...

LMCache: a camada de KV Cache mais rápida para acelerar inferência de LLMs

Ferramentas·15 de janeiro de 2026

LMCache: a camada de KV Cache mais rápida para acelerar inferência de LLMs

LMCache é uma biblioteca open-source que otimiza inferência de LLMs através de cache inteligente de Key-Value pairs, pro...

vLLM: o motor de inferência que está definindo o padrão para servir LLMs em produção

Ferramentas·14 de janeiro de 2026

vLLM: o motor de inferência que está definindo o padrão para servir LLMs em produção

Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .