Busca por embeddings vs memória baseada em arquivos: teste prático revela diferenças significativas em accuracy de retrieval

A
AI Engineering News
· · Atualizado em 20 de janeiro de 2026 · 5 min de leitura
Busca por embeddings vs memória baseada em arquivos: teste prático revela diferenças significativas em accuracy de retrieval

Um desenvolvedor compartilhou no Reddit r/MachineLearning os resultados de um teste comparativo entre duas abordagens de memory retrieval para um assistente pessoal: RAG tradicional com embeddings versus leitura direta de arquivos temáticos. Os resultados mostram diferenças substanciais dependendo do tipo de query.

O experimento é relevante porque expõe uma limitação frequentemente ignorada do RAG padrão: a dificuldade em lidar com queries que exigem raciocínio temporal ou multi-hop. Para engenheiros construindo assistentes com memória de longo prazo, chatbots empresariais ou agentes autônomos, entender esse trade-off é fundamental.

O impacto atinge diretamente quem trabalha com sistemas de memória conversacional, personal assistants e qualquer aplicação onde o contexto histórico e o raciocínio sobre múltiplas informações são críticos.

O QUE FOI PUBLICADO

  • Autor: /u/Winter_Ant_4196 no Reddit r/MachineLearning
  • Data: 19 de janeiro de 2026
  • Contexto: Teste informal comparando duas estratégias de retrieval para um assistente pessoal

Setup do experimento:

  • Aproximadamente 5.000 itens de memória acumulados em 2 meses de uso
  • Mix de histórico de conversas, preferências do usuário e trechos de documentos

Abordagens testadas:

  1. RAG padrão com embedding search: OpenAI embeddings + pgvector, latência de ~200ms por query
  2. Memória baseada em arquivos: Framework memU, que organiza itens em arquivos temáticos lidos diretamente pelo modelo

VISÃO TÉCNICA SIMPLIFICADA

Como funciona cada abordagem

Embedding search (RAG tradicional):

  • Cada item de memória é convertido em um vetor de embeddings
  • Queries são também vetorizadas e comparadas por similaridade (cosine similarity)
  • Retorna os top-k itens mais similares semanticamente
  • Rápido porque é uma operação matemática sobre vetores pré-computados

File-based memory (memU):

  • Itens de memória são organizados em arquivos temáticos (ex: "preferências culinárias", "discussões sobre projeto X")
  • O modelo LLM lê diretamente esses arquivos quando precisa recuperar informação
  • Mais lento porque processa mais tokens, mas permite raciocínio sobre o conteúdo

Por que a diferença de performance?

Embedding search otimiza para similaridade semântica, não para raciocínio. Quando você pergunta "qual restaurante eu prefiro?", a query é semanticamente próxima de "meu restaurante favorito é X" — funciona bem.

Mas quando você pergunta "o que discutimos sobre o projeto na terça passada?", a query não é semanticamente similar aos itens de memória daquela conversa. O embedding search não entende tempo, sequência ou relações lógicas entre itens.

A abordagem file-based resolve isso porque o modelo lê e raciocina sobre múltiplos itens simultaneamente, podendo:

  • Identificar timestamps e ordenar cronologicamente
  • Conectar informações de diferentes itens
  • Detectar contradições entre preferências

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance (accuracy):

  • Queries factuais simples: ambas abordagens ~85-90%
  • Queries temporais: embedding search ~40% vs file-based ~75%
  • Raciocínio multi-hop: embedding search "struggled hard", file-based "usável"

💸 Custos:

  • File-based consome significativamente mais tokens por query
  • Em escala, o custo de inferência pode se tornar proibitivo
  • Trade-off claro: accuracy vs custo

🏗️ Arquitetura:

  • Não é uma escolha binária: memU suporta embedding search como fallback
  • Possível híbrido: embedding para queries simples, file-based para queries complexas
  • Requer categorização de tipos de query ou routing inteligente

🔐 Riscos:

  • File-based expõe mais dados ao modelo por query (considerações de privacidade)
  • Latência maior pode impactar UX em aplicações real-time

🧪 Maturidade:

  • Teste informal, não rigoroso cientificamente
  • Resultados são direcionais, não definitivos
  • memU é um framework específico; resultados podem variar com outras implementações

CASOS DE USO REAIS E POTENCIAIS

Onde file-based memory faz mais sentido:

  • Assistentes pessoais de longo prazo: Onde o usuário espera que o sistema "lembre" contexto temporal e conecte informações
  • Agentes autônomos: Que precisam raciocinar sobre histórico de ações e decisões anteriores
  • Chatbots de suporte complexo: Onde tickets anteriores do mesmo cliente informam o atendimento atual
  • Sistemas de análise de documentos: Que precisam responder perguntas que cruzam múltiplos documentos

Onde embedding search continua sendo a melhor escolha:

  • Search e retrieval em escala: Milhões de documentos, queries simples
  • Aplicações cost-sensitive: Onde cada token conta
  • Real-time applications: Onde latência é crítica
  • Queries factuais diretas: FAQ bots, knowledge bases

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações do teste:

  • Amostra pequena (5k itens, um único usuário)
  • Métricas de accuracy não definidas rigorosamente
  • Não há comparação com outras técnicas (re-ranking, HyDE, query expansion)

Limitações técnicas da abordagem file-based:

  • Context window do modelo limita quantos itens podem ser lidos
  • Custo escala linearmente (ou pior) com tamanho da memória
  • Organização dos arquivos temáticos requer design cuidadoso

Riscos em produção:

  • Latência variável dependendo do tamanho dos arquivos
  • Custo pode explodir com uso intensivo
  • Dependência de um framework específico (memU)

Hype vs realidade:

  • O post é um relato anedótico, não um benchmark rigoroso
  • Os números específicos (40% vs 75%) devem ser tratados como indicativos
  • A conclusão geral (embedding search tem limitações para queries complexas) é bem estabelecida na literatura

O QUE OBSERVAR NOS PRÓXIMOS MESES

  • Evolução de técnicas híbridas: Frameworks que combinam embedding search com raciocínio sobre resultados
  • Agentic RAG: Agentes que decidem dinamicamente qual estratégia de retrieval usar
  • Modelos com context windows maiores: Podem viabilizar file-based em mais cenários
  • Benchmarks padronizados: Necessidade de métricas rigorosas para memory retrieval em diferentes tipos de query
  • Custo de inferência: Se continuar caindo, file-based se torna mais viável em escala

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas de memória para LLMs — incluindo trade-offs entre RAG tradicional, memória estruturada e abordagens híbridas — esse tema faz parte dos estudos da AI Engineering Academy.


🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp


Termos relacionados: RAG, embedding search, memory retrieval, pgvector, memU, context window, multi-hop reasoning, temporal queries, vector database, LLM memory

Compartilhar:

Quer ir além das notícias?

Aprenda a construir aplicações com IA na AI Engineering Academy.

Conhecer a Academy

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .

Artigos Relacionados