Low-Rank KV Attention: novo método reduz cache KV pela metade e economiza até 25% de compute no pré-treino
LRKV usa projeção KV compartilhada com resíduos low-rank por head, reduzindo cache KV em ~50% e economizando até 25% de...
4 artigos encontrados
LRKV usa projeção KV compartilhada com resíduos low-rank por head, reduzindo cache KV em ~50% e economizando até 25% de...
Heretic automatiza a remoção de restrições de segurança em LLMs usando abliteration e Optuna. Análise técnica da arquite...
Microsoft lança DIFF V2 com inferência equiparável ao Transformer padrão, sem kernels customizados, e promete 0.02-0.03...
Pesquisadores da Nvidia apresentam TTT-E2E, método que permite modelos de linguagem atualizarem seus próprios pesos dura...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .