Heretic: ferramenta open source promete remoção automática de censura em LLMs — análise técnica para engenheiros

A
AI Engineering News
· · Atualizado em 20 de janeiro de 2026 · 6 min de leitura
Heretic: ferramenta open source promete remoção automática de censura em LLMs — análise técnica para engenheiros

Um novo projeto open source está gerando discussão na comunidade de IA: o Heretic, uma ferramenta que promete remover automaticamente as restrições de segurança ("censura") de modelos de linguagem transformer. Em menos de quatro meses desde sua criação, o repositório já acumula mais de 4.200 estrelas no GitHub.

O tema é controverso por natureza — toca em questões de segurança de IA, alinhamento e liberdade de pesquisa. Mas do ponto de vista técnico, o projeto traz implementações interessantes que valem análise, especialmente para quem trabalha com fine-tuning, interpretabilidade e arquitetura de modelos.

Engenheiros de IA, pesquisadores de alinhamento e desenvolvedores que trabalham com modelos open source são os principais afetados por esse tipo de ferramenta — seja para entender melhor como funciona o alinhamento de LLMs, seja para avaliar riscos em deploys de produção.

O QUE FOI PUBLICADO

O Heretic foi criado por Philipp Emanuel Weidmann e publicado no GitHub em setembro de 2025, sob licença AGPL-3.0.

O que é:

  • Uma ferramenta Python que automatiza a técnica de "abliteration" em modelos transformer
  • Funciona com a maioria dos modelos densos, multimodais e várias arquiteturas MoE (Mixture of Experts)
  • Não requer conhecimento técnico profundo do usuário para operar

O problema que resolve:

  • Modelos de linguagem alinhados (Instruct, Chat) possuem mecanismos que os fazem recusar certos tipos de prompts
  • Remover essas restrições manualmente requer expertise em interpretabilidade e ajuste fino de hiperparâmetros
  • O Heretic automatiza esse processo usando otimização bayesiana

Instalação:

pip install -U heretic-llm

Uso básico:

heretic Qwen/Qwen3-4B-Instruct-2507

VISÃO TÉCNICA SIMPLIFICADA

O que é Abliteration?

Abliteration é uma técnica de interpretabilidade que identifica "direções de recusa" nos espaços de representação interna de um modelo. Em termos simples:

  1. O modelo processa prompts "perigosos" e "inofensivos"
  2. As ativações internas (hidden states) são coletadas em cada camada
  3. Calcula-se um vetor de diferença média entre os dois grupos
  4. Esse vetor representa a "direção de recusa" do modelo
  5. Ortogonalizando componentes específicos em relação a esse vetor, o modelo "esquece" como recusar

Como o Heretic funciona?

Componentes modificados:

  • Projeções de saída de atenção (attention out-projections)
  • Projeções de descida do MLP (MLP down-projections)

Inovação principal: Ao contrário de implementações anteriores que usavam pesos fixos de abliteration, o Heretic usa:

  1. Kernels de peso flexíveis e aprendíveis distribuídos entre camadas
  2. Índice de direção de recusa como float contínuo (não inteiro discreto), permitindo interpolação entre direções específicas de cada camada
  3. Otimização automática via Optuna usando TPE (Tree-structured Parzen Estimator)

Parâmetros otimizáveis por componente:

  • direction_index: seleção de camada (inteiro, float ou "por camada")
  • max_weight, max_weight_position, min_weight, min_weight_distance: descritores da forma do kernel

Arquiteturas suportadas

✅ Modelos densos (maioria das variantes) ✅ Modelos multimodais ✅ Múltiplas arquiteturas MoE

❌ State Space Models (SSMs como Mamba) ❌ Modelos híbridos ❌ Camadas não-homogêneas ❌ Sistemas de atenção experimentais

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance

  • Processamento do Llama-3.1-8B em RTX 3090: ~45 minutos
  • Benchmark automático do sistema para dimensionamento otimizado de batch
  • A ferramenta escolhe parâmetros automaticamente, sem necessidade de grid search manual

💸 Custos

  • Requer apenas hardware local com GPU compatível
  • Não há custos de API — tudo roda localmente
  • PyTorch 2.2+ e Python 3.10+ são as dependências base

🏗️ Arquitetura

  • Modifica pesos permanentemente (não é LoRA ou adapter)
  • Resultado pode ser salvo localmente ou publicado no Hugging Face
  • Preserva melhor as capacidades originais que abliterations manuais (KL divergence menor)

🔐 Riscos

  • Modelos modificados perdem guardrails de segurança
  • Distribuição pode violar termos de uso de modelos base
  • Implicações legais e éticas significativas dependendo da jurisdição

🧪 Maturidade

  • Projeto relativamente novo (< 5 meses)
  • Comunidade ativa (400+ forks)
  • Licença AGPL-3.0 exige que modificações sejam open source

Benchmarks publicados (Gemma-3-12b-it)

Modelo Recusas (prompts perigosos) KL Divergence (prompts normais)
Original 97/100 0
Heretic 3/100 0.16
Abliterations manuais 3/100 0.45-1.04

O dado importante aqui é o KL divergence: quanto menor, mais o modelo preserva seu comportamento original em prompts normais. O Heretic consegue supressão equivalente de recusas com degradação significativamente menor.

CASOS DE USO REAIS E POTENCIAIS

Pesquisa de alinhamento:

  • Estudar como mecanismos de recusa funcionam internamente
  • Testar robustez de diferentes técnicas de alinhamento
  • Criar baselines para avaliar novos métodos de safety

Red teaming:

  • Avaliar vulnerabilidades de modelos antes do deploy
  • Simular cenários de adversários com acesso aos pesos
  • Testar filtros e guardrails em nível de aplicação

Aplicações de pesquisa específicas:

  • Modelos para geração de dados sintéticos em domínios sensíveis
  • Assistentes para profissionais que precisam de respostas técnicas sem restrições (medicina, direito, segurança)
  • Fine-tuning downstream para casos de uso específicos

Recursos de visualização para interpretabilidade:

  • --plot-residuals: Gera projeções 2D PaCMAP dos hidden states
  • --print-residual-geometry: Métricas detalhadas de similaridade cosseno, normas L2 e coeficientes de silhueta

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações técnicas

  • Não funciona com SSMs (Mamba e similares)
  • Modelos híbridos não são suportados
  • Visualizações de pesquisa são intensivas em CPU (horas para modelos grandes)
  • Requer GPU com VRAM suficiente para o modelo + overhead de otimização

Riscos de produção

  • Modelos modificados podem gerar conteúdo tóxico, perigoso ou ilegal
  • Não há garantias de que comportamentos inesperados não emergirão
  • Pesos modificados podem ter características imprevisíveis em prompts específicos

Riscos éticos e legais

  • Distribuição de modelos "desbloqueados" pode violar ToS de provedores
  • Algumas jurisdições podem ter implicações legais
  • Contribui para o ecossistema de jailbreaking de LLMs
  • Licença AGPL-3.0 tem implicações para uso comercial

Hype vs Realidade

  • A técnica é real e funciona, não é vaporware
  • Porém, abliteration não é nova — o diferencial é a automação
  • Resultados podem variar significativamente entre arquiteturas
  • "Censura" é uma simplificação — alinhamento de segurança é mais nuançado

O QUE OBSERVAR NOS PRÓXIMOS MESES

Tendências a monitorar:

  1. Resposta dos provedores de modelos: Labs como Meta, Google e Mistral podem implementar contramedidas ou mudar arquiteturas

  2. Evolução das técnicas de alinhamento: Abliteration expõe que alinhamento atual é "superficial" — expect novos métodos que sejam mais robustos

  3. Regulação: Ferramentas deste tipo podem acelerar discussões sobre responsabilidade em modelos open weight

  4. Integração com outras técnicas: Combinação com quantização, merging e fine-tuning pode se tornar comum

  5. Adoção em red teaming: Empresas de segurança de IA podem adotar ferramentas similares em auditorias

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como interpretabilidade de modelos, técnicas de fine-tuning avançado e arquiteturas de LLMs — esse tema faz parte dos estudos da AI Engineering Academy.


🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp


Termos relacionados: abliteration, jailbreak LLM, remoção de censura, alinhamento de IA, interpretabilidade de modelos, Optuna, transformer, fine-tuning, safety alignment, red teaming IA

Compartilhar:

Quer ir além das notícias?

Aprenda a construir aplicações com IA na AI Engineering Academy.

Conhecer a Academy

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .

Artigos Relacionados