Manifolds em Transformers: como Claude conta caracteres de forma similar ao cérebro de mamíferos

A Anthropic acaba de publicar uma pesquisa que muda a forma como entendemos o funcionamento interno de grandes modelos de linguagem. O estudo "When Models Manipulate Manifolds: The Geometry of a Counting Task" demonstra que o Claude 3.5 Haiku representa contagens de caracteres em estruturas geométricas curvas — manifolds — de forma surpreendentemente similar às células de posição (place cells) encontradas no cérebro de mamíferos.

Essa descoberta vai além de uma curiosidade científica: ela estabelece que abordagens geométricas para interpretabilidade de IA podem revelar mecanismos que métodos tradicionais baseados apenas em features esparsas não conseguem capturar. Para engenheiros de IA trabalhando com interpretabilidade e alignment, isso representa uma mudança metodológica significativa.

O impacto direto recai sobre equipes de safety e interpretabilidade, pesquisadores de mecanismos de atenção, e engenheiros que precisam entender por que modelos tomam certas decisões. Se você trabalha com debugging de LLMs ou tenta explicar comportamentos emergentes, esta pesquisa oferece um novo framework de análise.

O QUE FOI PUBLICADO

A pesquisa foi publicada pela equipe de interpretabilidade da Anthropic no site Transformer Circuits em outubro de 2025, com versão arquivada no arXiv em janeiro de 2026. Os autores incluem Wes Gurnee, Emmanuel Ameisen, Isaac Kauvar, Julius Tarng, Adam Pearce, Chris Olah e Joshua Batson.

Problema investigado: Como o Claude 3.5 Haiku consegue "perceber" propriedades visuais de texto (como quebras de linha em largura fixa) quando recebe apenas sequências de tokens?

Tarefa estudada: Linebreaking — a capacidade do modelo de prever quando quebrar uma linha em texto com largura fixa, comum em código-fonte, logs de chat e documentos formatados.

Principais descobertas:

Contagens de caracteres são representadas em manifolds curvos de baixa dimensionalidade
Essas estruturas são análogas às células de posição biológicas de mamíferos
Heads de atenção "torcem" esses manifolds para estimar distância até a borda da linha
A decisão de quebrar linha emerge de um separador linear criado por estimativas ortogonais

VISÃO TÉCNICA SIMPLIFICADA

O que são manifolds no contexto de LLMs?

Um manifold é uma estrutura geométrica curva que pode ser localmente aproximada por um espaço euclidiano. No contexto do Claude, os pesquisadores descobriram que o modelo representa a contagem de caracteres da linha atual como uma curva helicoidal unidimensional embebida em um espaço de baixa dimensionalidade.

Pense assim: em vez de representar "caractere 50" e "caractere 51" como vetores completamente diferentes e ortogonais, o modelo os representa como pontos adjacentes em uma espiral contínua. Isso é mais eficiente em termos de capacidade e permite interpolação natural.

Analogia biológica: place cells

No cérebro de mamíferos, as células de posição (place cells) no hipocampo disparam quando o animal está em locais específicos do ambiente. Elas formam representações espaciais que permitem navegação.

O Claude desenvolveu algo análogo: "células de contagem" que ativam em posições específicas do texto. Mas há diferenças importantes impostas pela arquitetura do residual stream que tornam a implementação única.

O mecanismo de três etapas

Acumulação: Comprimentos de tokens são acumulados em manifolds de contagem de caracteres
Torção: Heads de atenção "torcem" esses manifolds para estimar distância até a borda
Decisão: Estimativas ortogonais criam uma fronteira de decisão linear para a quebra de linha

Métricas quantitativas

Métrica	Valor
R² do probe linear (contagem)	0.985
Variância capturada (6 componentes PCA)	95%
RMSE do probe	5 caracteres
AUC do separador linear (decisão newline)	0.91

Descoberta das "ilusões visuais"

Os pesquisadores descobriram que certas sequências de caracteres — como @@ usado em diffs do Git — podem "sequestrar" o mecanismo de contagem. Quando inserido em contextos inesperados, o modelo se confunde porque os heads de atenção são "distraídos" e atendem a esses delimitadores em vez da quebra de linha anterior.

Sequências com maior efeito de modulação incluem: >> }} ;| || @@

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🏗️ Arquitetura

A pesquisa demonstra que múltiplos heads de atenção precisam cooperar para construir a geometria curva necessária para representações de alta resolução. Um head individual não consegue gerar variância suficiente sozinho — a computação distribuída é essencial.

Isso tem implicações para design de arquiteturas: se você está tentando implementar capacidades de contagem ou tracking posicional, considere que a emergência dessas habilidades depende de coordenação multi-head.

🧪 Maturidade

Sparse Autoencoders (SAEs) continuam sendo ferramentas valiosas para descoberta inicial, mas a pesquisa mostra claramente suas limitações. Os pesquisadores relatam que tentaram inicialmente usar apenas probes e patching, mas "isso funcionou mal". Só após identificar features relevantes via SAE é que o papel delas ficou claro.

Para engenheiros de interpretabilidade: SAEs são pontos de entrada, não destino final. A análise geométrica deve complementar a análise de features discretas.

💸 Custos

Não há impacto direto em custos de inferência ou treinamento. Esta é uma pesquisa de interpretabilidade que revela mecanismos existentes, não uma otimização.

🚀 Performance

As "ilusões visuais" descobertas sugerem potenciais edge cases onde modelos podem falhar em tarefas de formatação. Se você serve modelos que precisam respeitar larguras de linha fixas (geradores de código, formatadores de texto), vale investigar se sequências como @@ causam comportamentos inesperados.

🔐 Riscos

A descoberta de que certas sequências podem "sequestrar" mecanismos internos é relevante para adversarial robustness. Embora o caso específico (quebra de linha) seja de baixo risco, o padrão — tokens que desviam atenção de forma inesperada — pode se aplicar a comportamentos mais críticos.

CASOS DE USO REAIS E POTENCIAIS

Interpretabilidade aplicada

Equipes de safety podem usar a metodologia para investigar outros comportamentos "perceptuais" em LLMs — como models lidam com formatação de tabelas, indentação de código ou estruturas visuais em geral.

Debugging de comportamentos emergentes

Quando um modelo falha em tarefas de formatação, a análise geométrica pode revelar se o problema está na representação (manifold corrompido) ou na decisão (fronteira de classificação mal posicionada).

Design de benchmarks

As "ilusões visuais" descobertas podem inspirar novos benchmarks para testar robustez de LLMs em tarefas de formatação e contagem.

Agentes de código

Agentes que geram ou editam código precisam respeitar convenções de formatação. Entender como o modelo representa posição no texto pode ajudar a criar prompts mais robustos ou detectar quando o agente está "confuso".

Ferramentas de visualização

A comunidade de interpretabilidade pode desenvolver ferramentas que visualizam esses manifolds em tempo real, permitindo debugging interativo de decisões do modelo.

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações técnicas

Escopo restrito: O estudo foca em uma tarefa específica (linebreaking). Generalização para outras capacidades não está demonstrada
Modelo específico: Resultados são do Claude 3.5 Haiku. Outros modelos podem ter implementações diferentes
Complexidade metodológica: Replicar a análise requer expertise em geometria diferencial e acesso a ferramentas especializadas

Dependências

A análise depende de SAEs treinados (no caso, um Weakly Causal Crosscoder com 10 milhões de features). Nem todos os modelos têm SAEs públicos disponíveis.

Riscos de hype

A analogia com place cells biológicas é sugestiva mas não implica que LLMs "pensam" como cérebros. São soluções convergentes para problemas similares de representação posicional, não evidência de cognição.

O "imposto de complexidade"

Os próprios autores reconhecem que features de dicionário "fragmentam o modelo em muitas peças pequenas". A abordagem geométrica reduz esse imposto, mas adiciona sua própria complexidade conceitual.

O QUE OBSERVAR NOS PRÓXIMOS MESES

Ferramentas de visualização: É provável que surjam ferramentas open-source para visualizar manifolds em espaços de ativação. Fique de olho em repos da comunidade de interpretabilidade.

Replicação em outros modelos: Pesquisadores independentes provavelmente tentarão replicar os achados em Llama, GPT ou outros modelos abertos. Se os padrões se confirmarem, a abordagem geométrica pode se tornar padrão.

Extensão para outras tarefas: A Anthropic ou outros labs podem publicar análises similares para tarefas mais complexas — aritmética, reasoning, ou capacidades que são atualmente caixas-pretas.

Implicações para alignment: Se comportamentos problemáticos também forem representados geometricamente, isso pode abrir novos caminhos para intervenções cirúrgicas em modelos.

Integração com SAEs: Espere ver trabalhos que combinem descoberta automática via SAE com análise geométrica subsequente, criando pipelines de interpretabilidade mais completos.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquiteturas de transformers processam informação e como técnicas de interpretabilidade podem ser aplicadas em sistemas de produção — incluindo análise de mecanismos de atenção e debugging de comportamentos emergentes — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: manifolds em deep learning, transformer interpretability, sparse autoencoders, place cells, mecanismos de atenção, Claude 3.5 Haiku, Anthropic, geometric interpretability, residual stream, contagem em LLMs