Engram: DeepSeek propõe 'memória condicional' como novo eixo de esparsidade para LLMs
A DeepSeek acaba de publicar uma pesquisa que pode mudar a forma como pensamos sobre esparsidade em Large Language Models. O paper introduz o conceito de memória condicional como um eixo complementar ao já estabelecido Mixture-of-Experts (MoE), atacando uma limitação fundamental dos Transformers: a ausência de um primitivo nativo para lookup de conhecimento.
O timing é significativo. Com o crescimento exponencial dos modelos e a pressão por eficiência computacional, a comunidade busca alternativas ao scaling puramente baseado em parâmetros. O Engram propõe uma abordagem que separa o que pode ser recuperado estaticamente do que precisa ser computado dinamicamente.
Engenheiros trabalhando com inferência de LLMs, arquiteturas de serving e otimização de custos devem prestar atenção especial. Os ganhos reportados não são incrementais — estamos falando de melhorias substanciais em benchmarks de raciocínio, código e especialmente contexto longo.
O QUE FOI PUBLICADO
A DeepSeek publicou o paper "Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models" no arXiv (2601.07372), acompanhado do código open-source no GitHub.
Problema atacado:
- Transformers não possuem um primitivo nativo para lookup de conhecimento
- O modelo é forçado a simular retrieval através de computação, o que é ineficiente
- MoE escala capacidade via computação condicional, mas ignora o potencial de memória estática
Proposta:
- Introdução do conceito de memória condicional como eixo complementar de esparsidade
- Implementação via Engram, um módulo que moderniza embeddings N-gram clássicos para lookup O(1)
- Formulação do problema de Alocação de Esparsidade que revela uma lei de escala em forma de U
Escala:
- O módulo Engram foi escalado para 27B de parâmetros
- Comparação rigorosa: iso-parâmetros e iso-FLOPs contra baseline MoE
VISÃO TÉCNICA SIMPLIFICADA
O Problema com Transformers Atuais
Transformers tradicionais tratam todo tipo de conhecimento da mesma forma: através de computação nos pesos da rede. Isso significa que recuperar um fato simples ("Paris é a capital da França") consome os mesmos recursos computacionais que realizar raciocínio complexo.
É como usar uma calculadora científica para somar 2+2 — funciona, mas é desperdício de capacidade.
O que é Memória Condicional?
A ideia central é criar uma separação arquitetural entre:
- Conhecimento estático: fatos, padrões linguísticos, associações frequentes — que podem ser recuperados via lookup direto
- Computação dinâmica: raciocínio, inferência, composição — que requer processamento neural
O Engram implementa essa separação através de uma modernização dos embeddings N-gram, permitindo lookup em O(1) — tempo constante independente do tamanho da memória.
A Lei de Escala em Forma de U
Um dos achados mais interessantes é a formulação do Sparsity Allocation Problem. Os pesquisadores descobriram uma lei de escala em forma de U que otimiza o trade-off entre:
- Computação neural (MoE): flexível, mas cara
- Memória estática (Engram): rígida, mas praticamente gratuita em runtime
Isso significa que existe um ponto ótimo de alocação entre os dois tipos de esparsidade, e esse ponto pode ser calculado sistematicamente.
Arquitetura do Engram
O módulo Engram funciona como uma tabela de lookup massiva (27B parâmetros no modelo escalado) que:
- Usa endereçamento determinístico baseado em contexto local (N-grams)
- Permite prefetching em runtime da memória do host
- Opera com overhead negligenciável graças à previsibilidade do acesso
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance Os ganhos são expressivos e surpreendentes. O paper reporta:
- MMLU: +3.4 (esperado, dado o foco em conhecimento)
- CMMLU: +4.0
- BBH: +5.0 (raciocínio geral — surpreendente)
- ARC-Challenge: +3.7
- HumanEval: +3.0 (código)
- MATH: +2.4
- Multi-Query NIAH: de 84.2 para 97.0 (contexto longo — impressionante)
O fato de os maiores ganhos estarem em raciocínio (não em retrieval de fatos) é contraintuitivo e sugere um efeito arquitetural mais profundo.
💸 Custos A comparação iso-FLOPs é crucial: o Engram supera o baseline MoE usando a mesma quantidade de computação. Isso significa que a memória adicional se paga em qualidade sem custo extra de inferência.
O overhead reportado é "negligenciável" graças ao prefetching determinístico — a previsibilidade do acesso permite que a memória seja carregada antes de ser necessária.
🏗️ Arquitetura Isso muda como pensamos sobre design de LLMs:
- Esparsidade não é mais apenas MoE
- Existe um novo eixo de otimização: alocação entre computação e memória
- O conceito de "profundidade efetiva" da rede ganha novo significado
🔐 Riscos
- Dependência de infraestrutura com memória abundante (host memory para prefetching)
- Complexidade adicional no serving
- Ainda não está claro como isso interage com quantização agressiva
🧪 Maturidade
- Paper recém-publicado (Janeiro 2026)
- Código disponível no GitHub da DeepSeek
- Resultados ainda não reproduzidos independentemente
- Escala de 27B testada, mas não sabemos sobre escalas maiores
CASOS DE USO REAIS E POTENCIAIS
Contexto Longo
O salto de 84.2 para 97.0 no Multi-Query Needle-in-a-Haystack é o resultado mais impressionante. Aplicações:
- Análise de documentos extensos: contratos, relatórios financeiros, bases de código
- Chatbots com memória de longo prazo: contexto de conversas anteriores
- RAG avançado: melhor capacidade de sintetizar informação de múltiplos chunks
Agentes de Código
O ganho de +3.0 em HumanEval sugere benefícios para:
- Assistentes de programação: melhor recall de APIs e padrões
- Agentes autônomos: menos alucinação em tarefas de código
Sistemas de Raciocínio
O ganho de +5.0 em BBH (Big Bench Hard) indica:
- Agentes que precisam de raciocínio multi-step: planning, decomposição de tarefas
- Aplicações matemáticas e científicas: o +2.4 em MATH corrobora
Serving Eficiente
A arquitetura permite:
- Offloading inteligente: memória no host, computação na GPU
- Inferência em hardware heterogêneo: aproveitamento de RAM abundante
- Redução de custos de GPU: menos computação para mesmo resultado
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações Técnicas
- Dependência de memória do host: o prefetching assume RAM abundante e banda de memória adequada
- Rigidez da memória estática: o conhecimento no Engram é fixo após treinamento
- Escala testada: 27B é grande, mas como se comporta em 100B+?
Riscos de Produção
- Complexidade de deployment: mais um componente para gerenciar
- Latência em edge: dispositivos com memória limitada podem não se beneficiar
- Interação com otimizações existentes: quantização, pruning, distillation — comportamento desconhecido
Hype vs Realidade
- Resultados vêm da própria DeepSeek — aguardar reprodução independente
- Comparação iso-FLOPs é justa, mas condições de produção podem diferir
- O mecanismo exato pelo qual Engram melhora raciocínio ainda precisa de mais investigação
Considerações Práticas
- Ainda não há modelos pré-treinados públicos com Engram (apenas o código)
- Treinar do zero requer recursos significativos
- A comunidade ainda não teve tempo de stress-testar
O QUE OBSERVAR NOS PRÓXIMOS MESES
Integração em modelos de produção: A DeepSeek vai incorporar Engram em suas próximas releases? Se sim, teremos validação em escala real.
Adoção pela comunidade: Projetos como vLLM, TensorRT-LLM e outros frameworks de serving vão suportar esse tipo de arquitetura?
Reprodução independente: Labs como EleutherAI, Together AI ou grupos acadêmicos conseguirão replicar os resultados?
Evolução do conceito: Memória condicional é apresentada como "primitivo indispensável" — outros grupos vão propor variações?
Combinação com outras técnicas: Como Engram interage com:
- Speculative decoding
- Continuous batching
- KV cache optimization
- Quantização extrema (1-2 bits)
Padronização: Se a abordagem se provar robusta, pode influenciar futuras arquiteturas — talvez até a próxima geração de modelos foundation.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente, otimização de serving e arquiteturas sparse — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Engram, DeepSeek, Mixture-of-Experts, MoE, memória condicional, esparsidade, N-gram embeddings, lookup O(1), Sparsity Allocation, contexto longo, inferência eficiente, Large Language Models, arquitetura de Transformers
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Nova pesquisa mapeia a 'estrutura molecular' do raciocínio em LLMs — o que engenheiros de IA precisam saber
Paper propõe que trajetórias de Long Chain-of-Thought efetivas possuem estruturas moleculares estáveis com três tipos de...
MCAN: nova arquitetura para detectar imagens geradas por IA supera estado da arte em até 7,4%
Nova arquitetura MCAN integra pistas de alta frequência, inconsistência cromática e conteúdo espacial para detectar imag...
Spectral Sphere Optimizer: novo otimizador promete superar AdamW e Muon no treinamento de LLMs
Novo paper apresenta o Spectral Sphere Optimizer (SSO), que combina descida mais íngreme sob norma espectral com restriç...