Busca por embeddings vs memória baseada em arquivos: teste prático revela diferenças significativas em accuracy de retrieval
Um desenvolvedor compartilhou no Reddit r/MachineLearning os resultados de um teste comparativo entre duas abordagens de memory retrieval para um assistente pessoal: RAG tradicional com embeddings versus leitura direta de arquivos temáticos. Os resultados mostram diferenças substanciais dependendo do tipo de query.
O experimento é relevante porque expõe uma limitação frequentemente ignorada do RAG padrão: a dificuldade em lidar com queries que exigem raciocínio temporal ou multi-hop. Para engenheiros construindo assistentes com memória de longo prazo, chatbots empresariais ou agentes autônomos, entender esse trade-off é fundamental.
O impacto atinge diretamente quem trabalha com sistemas de memória conversacional, personal assistants e qualquer aplicação onde o contexto histórico e o raciocínio sobre múltiplas informações são críticos.
O QUE FOI PUBLICADO
- Autor: /u/Winter_Ant_4196 no Reddit r/MachineLearning
- Data: 19 de janeiro de 2026
- Contexto: Teste informal comparando duas estratégias de retrieval para um assistente pessoal
Setup do experimento:
- Aproximadamente 5.000 itens de memória acumulados em 2 meses de uso
- Mix de histórico de conversas, preferências do usuário e trechos de documentos
Abordagens testadas:
- RAG padrão com embedding search: OpenAI embeddings + pgvector, latência de ~200ms por query
- Memória baseada em arquivos: Framework memU, que organiza itens em arquivos temáticos lidos diretamente pelo modelo
VISÃO TÉCNICA SIMPLIFICADA
Como funciona cada abordagem
Embedding search (RAG tradicional):
- Cada item de memória é convertido em um vetor de embeddings
- Queries são também vetorizadas e comparadas por similaridade (cosine similarity)
- Retorna os top-k itens mais similares semanticamente
- Rápido porque é uma operação matemática sobre vetores pré-computados
File-based memory (memU):
- Itens de memória são organizados em arquivos temáticos (ex: "preferências culinárias", "discussões sobre projeto X")
- O modelo LLM lê diretamente esses arquivos quando precisa recuperar informação
- Mais lento porque processa mais tokens, mas permite raciocínio sobre o conteúdo
Por que a diferença de performance?
Embedding search otimiza para similaridade semântica, não para raciocínio. Quando você pergunta "qual restaurante eu prefiro?", a query é semanticamente próxima de "meu restaurante favorito é X" — funciona bem.
Mas quando você pergunta "o que discutimos sobre o projeto na terça passada?", a query não é semanticamente similar aos itens de memória daquela conversa. O embedding search não entende tempo, sequência ou relações lógicas entre itens.
A abordagem file-based resolve isso porque o modelo lê e raciocina sobre múltiplos itens simultaneamente, podendo:
- Identificar timestamps e ordenar cronologicamente
- Conectar informações de diferentes itens
- Detectar contradições entre preferências
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance (accuracy):
- Queries factuais simples: ambas abordagens ~85-90%
- Queries temporais: embedding search ~40% vs file-based ~75%
- Raciocínio multi-hop: embedding search "struggled hard", file-based "usável"
💸 Custos:
- File-based consome significativamente mais tokens por query
- Em escala, o custo de inferência pode se tornar proibitivo
- Trade-off claro: accuracy vs custo
🏗️ Arquitetura:
- Não é uma escolha binária: memU suporta embedding search como fallback
- Possível híbrido: embedding para queries simples, file-based para queries complexas
- Requer categorização de tipos de query ou routing inteligente
🔐 Riscos:
- File-based expõe mais dados ao modelo por query (considerações de privacidade)
- Latência maior pode impactar UX em aplicações real-time
🧪 Maturidade:
- Teste informal, não rigoroso cientificamente
- Resultados são direcionais, não definitivos
- memU é um framework específico; resultados podem variar com outras implementações
CASOS DE USO REAIS E POTENCIAIS
Onde file-based memory faz mais sentido:
- Assistentes pessoais de longo prazo: Onde o usuário espera que o sistema "lembre" contexto temporal e conecte informações
- Agentes autônomos: Que precisam raciocinar sobre histórico de ações e decisões anteriores
- Chatbots de suporte complexo: Onde tickets anteriores do mesmo cliente informam o atendimento atual
- Sistemas de análise de documentos: Que precisam responder perguntas que cruzam múltiplos documentos
Onde embedding search continua sendo a melhor escolha:
- Search e retrieval em escala: Milhões de documentos, queries simples
- Aplicações cost-sensitive: Onde cada token conta
- Real-time applications: Onde latência é crítica
- Queries factuais diretas: FAQ bots, knowledge bases
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações do teste:
- Amostra pequena (5k itens, um único usuário)
- Métricas de accuracy não definidas rigorosamente
- Não há comparação com outras técnicas (re-ranking, HyDE, query expansion)
Limitações técnicas da abordagem file-based:
- Context window do modelo limita quantos itens podem ser lidos
- Custo escala linearmente (ou pior) com tamanho da memória
- Organização dos arquivos temáticos requer design cuidadoso
Riscos em produção:
- Latência variável dependendo do tamanho dos arquivos
- Custo pode explodir com uso intensivo
- Dependência de um framework específico (memU)
Hype vs realidade:
- O post é um relato anedótico, não um benchmark rigoroso
- Os números específicos (40% vs 75%) devem ser tratados como indicativos
- A conclusão geral (embedding search tem limitações para queries complexas) é bem estabelecida na literatura
O QUE OBSERVAR NOS PRÓXIMOS MESES
- Evolução de técnicas híbridas: Frameworks que combinam embedding search com raciocínio sobre resultados
- Agentic RAG: Agentes que decidem dinamicamente qual estratégia de retrieval usar
- Modelos com context windows maiores: Podem viabilizar file-based em mais cenários
- Benchmarks padronizados: Necessidade de métricas rigorosas para memory retrieval em diferentes tipos de query
- Custo de inferência: Se continuar caindo, file-based se torna mais viável em escala
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas de memória para LLMs — incluindo trade-offs entre RAG tradicional, memória estruturada e abordagens híbridas — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: RAG, embedding search, memory retrieval, pgvector, memU, context window, multi-hop reasoning, temporal queries, vector database, LLM memory
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention
LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...
MaliciousCorgi: extensões de IA populares vazaram código de 1,5 milhão de desenvolvedores
Duas extensões de IA para VS Code com 1,5 milhão de instalações continham código malicioso idêntico que exfiltrava arqui...
Graph Neural Networks para previsão de demanda: por que séries temporais sozinhas não bastam
Previsão de demanda tradicionalmente trata cada SKU isoladamente. Graph Neural Networks mudam isso ao capturar relações...