#gpu

Artigos sobre gpu

2 artigos encontrados

Ferramentas·20 de janeiro de 2026

FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...

Ferramentas·15 de janeiro de 2026

LMCache é uma biblioteca open-source que otimiza inferência de LLMs através de cache inteligente de Key-Value pairs, pro...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .