Low-Rank KV Attention: novo método reduz cache KV pela metade e economiza até 25% de compute no pré-treino
LRKV usa projeção KV compartilhada com resíduos low-rank por head, reduzindo cache KV em ~50% e economizando até 25% de...
2 artigos encontrados
LRKV usa projeção KV compartilhada com resíduos low-rank por head, reduzindo cache KV em ~50% e economizando até 25% de...
LMCache é uma biblioteca open-source que otimiza inferência de LLMs através de cache inteligente de Key-Value pairs, pro...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .