Engram: DeepSeek propõe 'memória condicional' como novo eixo de esparsidade para LLMs

A DeepSeek acaba de publicar uma pesquisa que pode mudar a forma como pensamos sobre esparsidade em Large Language Models. O paper introduz o conceito de memória condicional como um eixo complementar ao já estabelecido Mixture-of-Experts (MoE), atacando uma limitação fundamental dos Transformers: a ausência de um primitivo nativo para lookup de conhecimento.

O timing é significativo. Com o crescimento exponencial dos modelos e a pressão por eficiência computacional, a comunidade busca alternativas ao scaling puramente baseado em parâmetros. O Engram propõe uma abordagem que separa o que pode ser recuperado estaticamente do que precisa ser computado dinamicamente.

Engenheiros trabalhando com inferência de LLMs, arquiteturas de serving e otimização de custos devem prestar atenção especial. Os ganhos reportados não são incrementais — estamos falando de melhorias substanciais em benchmarks de raciocínio, código e especialmente contexto longo.

O QUE FOI PUBLICADO

A DeepSeek publicou o paper "Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models" no arXiv (2601.07372), acompanhado do código open-source no GitHub.

Problema atacado:

Transformers não possuem um primitivo nativo para lookup de conhecimento
O modelo é forçado a simular retrieval através de computação, o que é ineficiente
MoE escala capacidade via computação condicional, mas ignora o potencial de memória estática

Proposta:

Introdução do conceito de memória condicional como eixo complementar de esparsidade
Implementação via Engram, um módulo que moderniza embeddings N-gram clássicos para lookup O(1)
Formulação do problema de Alocação de Esparsidade que revela uma lei de escala em forma de U

Escala:

O módulo Engram foi escalado para 27B de parâmetros
Comparação rigorosa: iso-parâmetros e iso-FLOPs contra baseline MoE

VISÃO TÉCNICA SIMPLIFICADA

O Problema com Transformers Atuais

Transformers tradicionais tratam todo tipo de conhecimento da mesma forma: através de computação nos pesos da rede. Isso significa que recuperar um fato simples ("Paris é a capital da França") consome os mesmos recursos computacionais que realizar raciocínio complexo.

É como usar uma calculadora científica para somar 2+2 — funciona, mas é desperdício de capacidade.

O que é Memória Condicional?

A ideia central é criar uma separação arquitetural entre:

Conhecimento estático: fatos, padrões linguísticos, associações frequentes — que podem ser recuperados via lookup direto
Computação dinâmica: raciocínio, inferência, composição — que requer processamento neural

O Engram implementa essa separação através de uma modernização dos embeddings N-gram, permitindo lookup em O(1) — tempo constante independente do tamanho da memória.

A Lei de Escala em Forma de U

Um dos achados mais interessantes é a formulação do Sparsity Allocation Problem. Os pesquisadores descobriram uma lei de escala em forma de U que otimiza o trade-off entre:

Computação neural (MoE): flexível, mas cara
Memória estática (Engram): rígida, mas praticamente gratuita em runtime

Isso significa que existe um ponto ótimo de alocação entre os dois tipos de esparsidade, e esse ponto pode ser calculado sistematicamente.

Arquitetura do Engram

O módulo Engram funciona como uma tabela de lookup massiva (27B parâmetros no modelo escalado) que:

Usa endereçamento determinístico baseado em contexto local (N-grams)
Permite prefetching em runtime da memória do host
Opera com overhead negligenciável graças à previsibilidade do acesso

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance Os ganhos são expressivos e surpreendentes. O paper reporta:

MMLU: +3.4 (esperado, dado o foco em conhecimento)
CMMLU: +4.0
BBH: +5.0 (raciocínio geral — surpreendente)
ARC-Challenge: +3.7
HumanEval: +3.0 (código)
MATH: +2.4
Multi-Query NIAH: de 84.2 para 97.0 (contexto longo — impressionante)

O fato de os maiores ganhos estarem em raciocínio (não em retrieval de fatos) é contraintuitivo e sugere um efeito arquitetural mais profundo.

💸 Custos A comparação iso-FLOPs é crucial: o Engram supera o baseline MoE usando a mesma quantidade de computação. Isso significa que a memória adicional se paga em qualidade sem custo extra de inferência.

O overhead reportado é "negligenciável" graças ao prefetching determinístico — a previsibilidade do acesso permite que a memória seja carregada antes de ser necessária.

🏗️ Arquitetura Isso muda como pensamos sobre design de LLMs:

Esparsidade não é mais apenas MoE
Existe um novo eixo de otimização: alocação entre computação e memória
O conceito de "profundidade efetiva" da rede ganha novo significado

🔐 Riscos

Dependência de infraestrutura com memória abundante (host memory para prefetching)
Complexidade adicional no serving
Ainda não está claro como isso interage com quantização agressiva

🧪 Maturidade

Paper recém-publicado (Janeiro 2026)
Código disponível no GitHub da DeepSeek
Resultados ainda não reproduzidos independentemente
Escala de 27B testada, mas não sabemos sobre escalas maiores

CASOS DE USO REAIS E POTENCIAIS

Contexto Longo

O salto de 84.2 para 97.0 no Multi-Query Needle-in-a-Haystack é o resultado mais impressionante. Aplicações:

Análise de documentos extensos: contratos, relatórios financeiros, bases de código
Chatbots com memória de longo prazo: contexto de conversas anteriores
RAG avançado: melhor capacidade de sintetizar informação de múltiplos chunks

Agentes de Código

O ganho de +3.0 em HumanEval sugere benefícios para:

Assistentes de programação: melhor recall de APIs e padrões
Agentes autônomos: menos alucinação em tarefas de código

Sistemas de Raciocínio

O ganho de +5.0 em BBH (Big Bench Hard) indica:

Agentes que precisam de raciocínio multi-step: planning, decomposição de tarefas
Aplicações matemáticas e científicas: o +2.4 em MATH corrobora

Serving Eficiente

A arquitetura permite:

Offloading inteligente: memória no host, computação na GPU
Inferência em hardware heterogêneo: aproveitamento de RAM abundante
Redução de custos de GPU: menos computação para mesmo resultado

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

Dependência de memória do host: o prefetching assume RAM abundante e banda de memória adequada
Rigidez da memória estática: o conhecimento no Engram é fixo após treinamento
Escala testada: 27B é grande, mas como se comporta em 100B+?

Riscos de Produção

Complexidade de deployment: mais um componente para gerenciar
Latência em edge: dispositivos com memória limitada podem não se beneficiar
Interação com otimizações existentes: quantização, pruning, distillation — comportamento desconhecido

Hype vs Realidade

Resultados vêm da própria DeepSeek — aguardar reprodução independente
Comparação iso-FLOPs é justa, mas condições de produção podem diferir
O mecanismo exato pelo qual Engram melhora raciocínio ainda precisa de mais investigação

Considerações Práticas

Ainda não há modelos pré-treinados públicos com Engram (apenas o código)
Treinar do zero requer recursos significativos
A comunidade ainda não teve tempo de stress-testar

O QUE OBSERVAR NOS PRÓXIMOS MESES

Integração em modelos de produção: A DeepSeek vai incorporar Engram em suas próximas releases? Se sim, teremos validação em escala real.

Adoção pela comunidade: Projetos como vLLM, TensorRT-LLM e outros frameworks de serving vão suportar esse tipo de arquitetura?

Reprodução independente: Labs como EleutherAI, Together AI ou grupos acadêmicos conseguirão replicar os resultados?

Evolução do conceito: Memória condicional é apresentada como "primitivo indispensável" — outros grupos vão propor variações?

Combinação com outras técnicas: Como Engram interage com:

Speculative decoding
Continuous batching
KV cache optimization
Quantização extrema (1-2 bits)

Padronização: Se a abordagem se provar robusta, pode influenciar futuras arquiteturas — talvez até a próxima geração de modelos foundation.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente, otimização de serving e arquiteturas sparse — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: Engram, DeepSeek, Mixture-of-Experts, MoE, memória condicional, esparsidade, N-gram embeddings, lookup O(1), Sparsity Allocation, contexto longo, inferência eficiente, Large Language Models, arquitetura de Transformers