FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
1 artigo encontrado
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .