TTARAG: novo método adapta modelos de linguagem em tempo real para melhorar RAG em domínios especializados
TTARAG introduz adaptação em tempo de teste para sistemas RAG, atualizando dinamicamente os parâmetros do modelo durante...
9 artigos encontrados
TTARAG introduz adaptação em tempo de teste para sistemas RAG, atualizando dinamicamente os parâmetros do modelo durante...
Liquid AI apresenta modelo de raciocínio com 1.2B de parâmetros que roda em 900MB de RAM. Arquitetura híbrida com convol...
FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...
LRKV usa projeção KV compartilhada com resíduos low-rank por head, reduzindo cache KV em ~50% e economizando até 25% de...
Código atualizado no GitHub da DeepSeek revela suporte para um misterioso 'MODEL1' com arquitetura diferente dos modelos...
Microsoft lança DIFF V2 com inferência equiparável ao Transformer padrão, sem kernels customizados, e promete 0.02-0.03...
Sakana AI apresenta DroPE, método que estende contexto de LLMs pré-treinados removendo embeddings posicionais — sem os c...
Pesquisadores da Nvidia apresentam TTT-E2E, método que permite modelos de linguagem atualizarem seus próprios pesos dura...
Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .