Engram: DeepSeek propõe 'memória condicional' como novo eixo de esparsidade para LLMs

A
AI Engineering News
· · Atualizado em 14 de janeiro de 2026 · 7 min de leitura
Engram: DeepSeek propõe 'memória condicional' como novo eixo de esparsidade para LLMs

A DeepSeek acaba de publicar uma pesquisa que pode mudar a forma como pensamos sobre esparsidade em Large Language Models. O paper introduz o conceito de memória condicional como um eixo complementar ao já estabelecido Mixture-of-Experts (MoE), atacando uma limitação fundamental dos Transformers: a ausência de um primitivo nativo para lookup de conhecimento.

O timing é significativo. Com o crescimento exponencial dos modelos e a pressão por eficiência computacional, a comunidade busca alternativas ao scaling puramente baseado em parâmetros. O Engram propõe uma abordagem que separa o que pode ser recuperado estaticamente do que precisa ser computado dinamicamente.

Engenheiros trabalhando com inferência de LLMs, arquiteturas de serving e otimização de custos devem prestar atenção especial. Os ganhos reportados não são incrementais — estamos falando de melhorias substanciais em benchmarks de raciocínio, código e especialmente contexto longo.

O QUE FOI PUBLICADO

A DeepSeek publicou o paper "Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models" no arXiv (2601.07372), acompanhado do código open-source no GitHub.

Problema atacado:

  • Transformers não possuem um primitivo nativo para lookup de conhecimento
  • O modelo é forçado a simular retrieval através de computação, o que é ineficiente
  • MoE escala capacidade via computação condicional, mas ignora o potencial de memória estática

Proposta:

  • Introdução do conceito de memória condicional como eixo complementar de esparsidade
  • Implementação via Engram, um módulo que moderniza embeddings N-gram clássicos para lookup O(1)
  • Formulação do problema de Alocação de Esparsidade que revela uma lei de escala em forma de U

Escala:

  • O módulo Engram foi escalado para 27B de parâmetros
  • Comparação rigorosa: iso-parâmetros e iso-FLOPs contra baseline MoE

VISÃO TÉCNICA SIMPLIFICADA

O Problema com Transformers Atuais

Transformers tradicionais tratam todo tipo de conhecimento da mesma forma: através de computação nos pesos da rede. Isso significa que recuperar um fato simples ("Paris é a capital da França") consome os mesmos recursos computacionais que realizar raciocínio complexo.

É como usar uma calculadora científica para somar 2+2 — funciona, mas é desperdício de capacidade.

O que é Memória Condicional?

A ideia central é criar uma separação arquitetural entre:

  1. Conhecimento estático: fatos, padrões linguísticos, associações frequentes — que podem ser recuperados via lookup direto
  2. Computação dinâmica: raciocínio, inferência, composição — que requer processamento neural

O Engram implementa essa separação através de uma modernização dos embeddings N-gram, permitindo lookup em O(1) — tempo constante independente do tamanho da memória.

A Lei de Escala em Forma de U

Um dos achados mais interessantes é a formulação do Sparsity Allocation Problem. Os pesquisadores descobriram uma lei de escala em forma de U que otimiza o trade-off entre:

  • Computação neural (MoE): flexível, mas cara
  • Memória estática (Engram): rígida, mas praticamente gratuita em runtime

Isso significa que existe um ponto ótimo de alocação entre os dois tipos de esparsidade, e esse ponto pode ser calculado sistematicamente.

Arquitetura do Engram

O módulo Engram funciona como uma tabela de lookup massiva (27B parâmetros no modelo escalado) que:

  • Usa endereçamento determinístico baseado em contexto local (N-grams)
  • Permite prefetching em runtime da memória do host
  • Opera com overhead negligenciável graças à previsibilidade do acesso

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance Os ganhos são expressivos e surpreendentes. O paper reporta:

  • MMLU: +3.4 (esperado, dado o foco em conhecimento)
  • CMMLU: +4.0
  • BBH: +5.0 (raciocínio geral — surpreendente)
  • ARC-Challenge: +3.7
  • HumanEval: +3.0 (código)
  • MATH: +2.4
  • Multi-Query NIAH: de 84.2 para 97.0 (contexto longo — impressionante)

O fato de os maiores ganhos estarem em raciocínio (não em retrieval de fatos) é contraintuitivo e sugere um efeito arquitetural mais profundo.

💸 Custos A comparação iso-FLOPs é crucial: o Engram supera o baseline MoE usando a mesma quantidade de computação. Isso significa que a memória adicional se paga em qualidade sem custo extra de inferência.

O overhead reportado é "negligenciável" graças ao prefetching determinístico — a previsibilidade do acesso permite que a memória seja carregada antes de ser necessária.

🏗️ Arquitetura Isso muda como pensamos sobre design de LLMs:

  • Esparsidade não é mais apenas MoE
  • Existe um novo eixo de otimização: alocação entre computação e memória
  • O conceito de "profundidade efetiva" da rede ganha novo significado

🔐 Riscos

  • Dependência de infraestrutura com memória abundante (host memory para prefetching)
  • Complexidade adicional no serving
  • Ainda não está claro como isso interage com quantização agressiva

🧪 Maturidade

  • Paper recém-publicado (Janeiro 2026)
  • Código disponível no GitHub da DeepSeek
  • Resultados ainda não reproduzidos independentemente
  • Escala de 27B testada, mas não sabemos sobre escalas maiores

CASOS DE USO REAIS E POTENCIAIS

Contexto Longo

O salto de 84.2 para 97.0 no Multi-Query Needle-in-a-Haystack é o resultado mais impressionante. Aplicações:

  • Análise de documentos extensos: contratos, relatórios financeiros, bases de código
  • Chatbots com memória de longo prazo: contexto de conversas anteriores
  • RAG avançado: melhor capacidade de sintetizar informação de múltiplos chunks

Agentes de Código

O ganho de +3.0 em HumanEval sugere benefícios para:

  • Assistentes de programação: melhor recall de APIs e padrões
  • Agentes autônomos: menos alucinação em tarefas de código

Sistemas de Raciocínio

O ganho de +5.0 em BBH (Big Bench Hard) indica:

  • Agentes que precisam de raciocínio multi-step: planning, decomposição de tarefas
  • Aplicações matemáticas e científicas: o +2.4 em MATH corrobora

Serving Eficiente

A arquitetura permite:

  • Offloading inteligente: memória no host, computação na GPU
  • Inferência em hardware heterogêneo: aproveitamento de RAM abundante
  • Redução de custos de GPU: menos computação para mesmo resultado

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

  • Dependência de memória do host: o prefetching assume RAM abundante e banda de memória adequada
  • Rigidez da memória estática: o conhecimento no Engram é fixo após treinamento
  • Escala testada: 27B é grande, mas como se comporta em 100B+?

Riscos de Produção

  • Complexidade de deployment: mais um componente para gerenciar
  • Latência em edge: dispositivos com memória limitada podem não se beneficiar
  • Interação com otimizações existentes: quantização, pruning, distillation — comportamento desconhecido

Hype vs Realidade

  • Resultados vêm da própria DeepSeek — aguardar reprodução independente
  • Comparação iso-FLOPs é justa, mas condições de produção podem diferir
  • O mecanismo exato pelo qual Engram melhora raciocínio ainda precisa de mais investigação

Considerações Práticas

  • Ainda não há modelos pré-treinados públicos com Engram (apenas o código)
  • Treinar do zero requer recursos significativos
  • A comunidade ainda não teve tempo de stress-testar

O QUE OBSERVAR NOS PRÓXIMOS MESES

Integração em modelos de produção: A DeepSeek vai incorporar Engram em suas próximas releases? Se sim, teremos validação em escala real.

Adoção pela comunidade: Projetos como vLLM, TensorRT-LLM e outros frameworks de serving vão suportar esse tipo de arquitetura?

Reprodução independente: Labs como EleutherAI, Together AI ou grupos acadêmicos conseguirão replicar os resultados?

Evolução do conceito: Memória condicional é apresentada como "primitivo indispensável" — outros grupos vão propor variações?

Combinação com outras técnicas: Como Engram interage com:

  • Speculative decoding
  • Continuous batching
  • KV cache optimization
  • Quantização extrema (1-2 bits)

Padronização: Se a abordagem se provar robusta, pode influenciar futuras arquiteturas — talvez até a próxima geração de modelos foundation.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente, otimização de serving e arquiteturas sparse — esse tema faz parte dos estudos da AI Engineering Academy.


🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp


Termos relacionados: Engram, DeepSeek, Mixture-of-Experts, MoE, memória condicional, esparsidade, N-gram embeddings, lookup O(1), Sparsity Allocation, contexto longo, inferência eficiente, Large Language Models, arquitetura de Transformers

Compartilhar:

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .

Artigos Relacionados