Busca por embeddings vs memória baseada em arquivos: teste prático revela diferenças significativas em accuracy de retrieval

Um desenvolvedor compartilhou no Reddit r/MachineLearning os resultados de um teste comparativo entre duas abordagens de memory retrieval para um assistente pessoal: RAG tradicional com embeddings versus leitura direta de arquivos temáticos. Os resultados mostram diferenças substanciais dependendo do tipo de query.

O experimento é relevante porque expõe uma limitação frequentemente ignorada do RAG padrão: a dificuldade em lidar com queries que exigem raciocínio temporal ou multi-hop. Para engenheiros construindo assistentes com memória de longo prazo, chatbots empresariais ou agentes autônomos, entender esse trade-off é fundamental.

O impacto atinge diretamente quem trabalha com sistemas de memória conversacional, personal assistants e qualquer aplicação onde o contexto histórico e o raciocínio sobre múltiplas informações são críticos.

O QUE FOI PUBLICADO

Autor: /u/Winter_Ant_4196 no Reddit r/MachineLearning
Data: 19 de janeiro de 2026
Contexto: Teste informal comparando duas estratégias de retrieval para um assistente pessoal

Setup do experimento:

Aproximadamente 5.000 itens de memória acumulados em 2 meses de uso
Mix de histórico de conversas, preferências do usuário e trechos de documentos

Abordagens testadas:

RAG padrão com embedding search: OpenAI embeddings + pgvector, latência de ~200ms por query
Memória baseada em arquivos: Framework memU, que organiza itens em arquivos temáticos lidos diretamente pelo modelo

VISÃO TÉCNICA SIMPLIFICADA

Como funciona cada abordagem

Embedding search (RAG tradicional):

Cada item de memória é convertido em um vetor de embeddings
Queries são também vetorizadas e comparadas por similaridade (cosine similarity)
Retorna os top-k itens mais similares semanticamente
Rápido porque é uma operação matemática sobre vetores pré-computados

File-based memory (memU):

Itens de memória são organizados em arquivos temáticos (ex: "preferências culinárias", "discussões sobre projeto X")
O modelo LLM lê diretamente esses arquivos quando precisa recuperar informação
Mais lento porque processa mais tokens, mas permite raciocínio sobre o conteúdo

Por que a diferença de performance?

Embedding search otimiza para similaridade semântica, não para raciocínio. Quando você pergunta "qual restaurante eu prefiro?", a query é semanticamente próxima de "meu restaurante favorito é X" — funciona bem.

Mas quando você pergunta "o que discutimos sobre o projeto na terça passada?", a query não é semanticamente similar aos itens de memória daquela conversa. O embedding search não entende tempo, sequência ou relações lógicas entre itens.

A abordagem file-based resolve isso porque o modelo lê e raciocina sobre múltiplos itens simultaneamente, podendo:

Identificar timestamps e ordenar cronologicamente
Conectar informações de diferentes itens
Detectar contradições entre preferências

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance (accuracy):

Queries factuais simples: ambas abordagens ~85-90%
Queries temporais: embedding search ~40% vs file-based ~75%
Raciocínio multi-hop: embedding search "struggled hard", file-based "usável"

💸 Custos:

File-based consome significativamente mais tokens por query
Em escala, o custo de inferência pode se tornar proibitivo
Trade-off claro: accuracy vs custo

🏗️ Arquitetura:

Não é uma escolha binária: memU suporta embedding search como fallback
Possível híbrido: embedding para queries simples, file-based para queries complexas
Requer categorização de tipos de query ou routing inteligente

🔐 Riscos:

File-based expõe mais dados ao modelo por query (considerações de privacidade)
Latência maior pode impactar UX em aplicações real-time

🧪 Maturidade:

Teste informal, não rigoroso cientificamente
Resultados são direcionais, não definitivos
memU é um framework específico; resultados podem variar com outras implementações

CASOS DE USO REAIS E POTENCIAIS

Onde file-based memory faz mais sentido:

Assistentes pessoais de longo prazo: Onde o usuário espera que o sistema "lembre" contexto temporal e conecte informações
Agentes autônomos: Que precisam raciocinar sobre histórico de ações e decisões anteriores
Chatbots de suporte complexo: Onde tickets anteriores do mesmo cliente informam o atendimento atual
Sistemas de análise de documentos: Que precisam responder perguntas que cruzam múltiplos documentos

Onde embedding search continua sendo a melhor escolha:

Search e retrieval em escala: Milhões de documentos, queries simples
Aplicações cost-sensitive: Onde cada token conta
Real-time applications: Onde latência é crítica
Queries factuais diretas: FAQ bots, knowledge bases

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações do teste:

Amostra pequena (5k itens, um único usuário)
Métricas de accuracy não definidas rigorosamente
Não há comparação com outras técnicas (re-ranking, HyDE, query expansion)

Limitações técnicas da abordagem file-based:

Context window do modelo limita quantos itens podem ser lidos
Custo escala linearmente (ou pior) com tamanho da memória
Organização dos arquivos temáticos requer design cuidadoso

Riscos em produção:

Latência variável dependendo do tamanho dos arquivos
Custo pode explodir com uso intensivo
Dependência de um framework específico (memU)

Hype vs realidade:

O post é um relato anedótico, não um benchmark rigoroso
Os números específicos (40% vs 75%) devem ser tratados como indicativos
A conclusão geral (embedding search tem limitações para queries complexas) é bem estabelecida na literatura

O QUE OBSERVAR NOS PRÓXIMOS MESES

Evolução de técnicas híbridas: Frameworks que combinam embedding search com raciocínio sobre resultados
Agentic RAG: Agentes que decidem dinamicamente qual estratégia de retrieval usar
Modelos com context windows maiores: Podem viabilizar file-based em mais cenários
Benchmarks padronizados: Necessidade de métricas rigorosas para memory retrieval em diferentes tipos de query
Custo de inferência: Se continuar caindo, file-based se torna mais viável em escala

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas de memória para LLMs — incluindo trade-offs entre RAG tradicional, memória estruturada e abordagens híbridas — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: RAG, embedding search, memory retrieval, pgvector, memU, context window, multi-hop reasoning, temporal queries, vector database, LLM memory

Busca por embeddings vs memória baseada em arquivos: teste prático revela diferenças significativas em accuracy de retrieval

O QUE FOI PUBLICADO

VISÃO TÉCNICA SIMPLIFICADA

Como funciona cada abordagem

Por que a diferença de performance?

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

CASOS DE USO REAIS E POTENCIAIS

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

O QUE OBSERVAR NOS PRÓXIMOS MESES

CONEXÃO COM APRENDIZADO

🚀 Faça parte da comunidade AI Engineering

Quer ir além das notícias?

Fique por dentro das novidades

Artigos Relacionados

Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention

MaliciousCorgi: extensões de IA populares vazaram código de 1,5 milhão de desenvolvedores

Graph Neural Networks para previsão de demanda: por que séries temporais sozinhas não bastam