Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention

A
AI Engineering News
· · Atualizado em 6 de fevereiro de 2026 · 7 min de leitura
Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention

O LinkedIn acaba de publicar um retrospecto técnico detalhando os desafios enfrentados ao treinar seus modelos GPT-OSS (20B e 120B parâmetros) usando reinforcement learning agêntico. O documento revela problemas não triviais envolvendo arquiteturas Mixture of Experts (MoE), inconsistências entre treino e inferência, e a necessidade de implementar backward passes customizados para attention sinks.

Essa publicação é especialmente relevante para engenheiros que trabalham com treinamento de LLMs em escala, pois expõe armadilhas técnicas que podem comprometer completamente a convergência do treinamento — mesmo quando tudo parece estar configurado corretamente.

O impacto é direto para quem está construindo sistemas de IA agênticos: as soluções apresentadas permitem treinar modelos MoE massivos com RL de forma estável, algo que até então apresentava barreiras técnicas significativas.

O QUE FOI PUBLICADO

O LinkedIn publicou no blog da Hugging Face, em 27 de janeiro de 2026, um retrospecto técnico sobre o treinamento de RL agêntico para seus modelos GPT-OSS.

Pontos principais:

  • Framework utilizado: verl (framework open-source para treinamento de RL)
  • Modelos: GPT-OSS 20B e 120B (arquitetura Mixture of Experts)
  • Tasks de teste: GSM8K (matemática single-turn), ReTool (agêntico multi-turn com ferramentas), VerifyIf (instruction following)
  • Infraestrutura: 16 nós H200 com sequências de até 16k tokens de resposta

Problema central: O treinamento com PPO (Proximal Policy Optimization) apresentava comportamento instável e gradientes explosivos devido a três issues técnicos distintos que foram identificados e resolvidos.

VISÃO TÉCNICA SIMPLIFICADA

O que é RL Agêntico?

Diferente do RL tradicional que otimiza respostas single-turn, o RL agêntico otimiza processos de decisão completos que envolvem:

  • Coleta de dados on-policy via interação agente-ambiente
  • Otimização de trajetórias multi-step
  • Atribuição de crédito em decisões de longo horizonte
  • Integração com tool calling e serviços externos

Desafio 1: Mismatch de Log-Probabilidade em MoE

Em arquiteturas Mixture of Experts, o roteamento de tokens para experts é estocástico. Isso causa um problema sutil mas crítico no PPO:

  • O PPO assume que π(a|s) = π_old(a|s) em treinamento on-policy
  • Com MoE, dois forward passes produzem roteamentos diferentes
  • Resultado: a importance ratio não é 1, violando a premissa on-policy

Solução implementada:

if on_policy:
    old_log_prob = log_prob.detach()
else:
    old_log_prob = model_inputs["old_log_probs"]

Isso força matematicamente a ratio a ser 1, garantindo comportamento estritamente on-policy.

Desafio 2: Inconsistência Treino-Inferência

O pipeline usava:

  • Inferência: vLLM/SGLang com otimizações agressivas (kernels Triton, attention sinks)
  • Treinamento: FSDP com FlashAttention-v2 (sem suporte a sinks)

Essa diferença efetivamente convertia o RL on-policy em otimização off-policy, degradando severamente a convergência.

Desafio 3: Attention Sinks no FlashAttention

Os modelos GPT-OSS usam attention sinks — parâmetros escalares aprendíveis por cabeça de atenção que funcionam como "tokens virtuais" na computação do softmax.

Atenção padrão:

scores = QK^T / sqrt(d)
probs = softmax(scores, dim=-1)
output = probs @ V

Atenção com sinks:

scores = QK^T / sqrt(d)
combined = concat([scores, sink_param], dim=-1)
probs = softmax(combined, dim=-1)
probs_content = probs[..., :-1]  # Remove componente sink
output = probs_content @ V

O problema: FlashAttention-v2 não suportava sinks, e o backward pass não existia nem na v2 nem na v3. A equipe precisou:

  1. Adaptar o forward pass do fork do vLLM
  2. Implementar o backward pass do zero (derivação matemática incluída no paper)

Desafio 4: Materialização de Experts em MoE

O path de inferência do Hugging Face duplicava hidden states para todos os experts:

hidden_states = hidden_states.repeat(num_experts, 1)  # 180 GiB no modelo 20B!

A solução foi usar o path de treinamento com loop sequencial — mais lento, mas viável em memória.

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance

  • Com as correções, o treinamento converge de forma estável onde antes colapsava
  • Gradientes permanecem controlados durante todo o treinamento
  • Convergência substancialmente mais rápida que baseline Qwen-2.5-32B

💸 Custos

  • Sequence parallelism permite treinar com contextos maiores sem OOM
  • Redução de memória por GPU proporcional ao grau de paralelismo
  • Evita necessidade de infraestrutura ainda maior para contornar memory issues

🏗️ Arquitetura

  • MoE + RL requer tratamento explícito do roteamento não-determinístico
  • Consistência entre kernels de treino e inferência é crítica (FlashAttention v2 vs v3)
  • Attention sinks não são apenas otimização de inferência — são essenciais para estabilidade de treino

🔐 Riscos

  • Usar paths de inferência otimizados durante treino pode quebrar completamente a convergência
  • Debugging é complexo: problemas podem parecer de hiperparâmetros quando são de implementação

🧪 Maturidade

  • Implementação do backward pass ainda pendente de release público
  • Requer fork do vLLM para forward pass
  • Específico para framework verl (versão 0.3.0+)

CASOS DE USO REAIS E POTENCIAIS

Sistemas Agênticos com Tool Calling

A capacidade de treinar RL multi-turn de forma estável abre portas para agentes que usam ferramentas (calculadoras, compiladores, APIs) de forma mais sofisticada.

Assistentes de Código

O task ReTool demonstra treinamento com code compiler — aplicável diretamente a copilots e assistentes de programação que precisam iterar sobre código.

Chatbots Enterprise

Empresas com modelos MoE próprios podem aplicar RLHF/RLAIF de forma mais confiável, melhorando instruction following.

Pipelines de Reasoning

Tasks como GSM8K mostram aplicação direta em chain-of-thought e mathematical reasoning, relevante para sistemas que precisam de raciocínio verificável.

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

  • Release pendente: O backward pass do FlashAttention-v3 com sinks ainda não está no repositório oficial
  • Escala limitada nos resultados: Curvas de aprendizado mostradas apenas para 20B; 120B mencionado como "funciona" sem detalhes
  • Escopo de tasks: Resultados em tasks relativamente simples — sem comparação em cenários multi-agente complexos

Dependências

  • Específico para framework verl
  • Requer fork customizado do vLLM
  • Aplicabilidade a outros frameworks de RL (como TRL ou OpenRLHF) não demonstrada

Riscos em Produção

  • A solução de forçar importance ratio = 1 é um workaround que não resolve a não-determinismo do roteamento
  • Equipes precisam validar se suas arquiteturas MoE específicas apresentam o mesmo comportamento

Hype vs Realidade

O paper é um retrospecto honesto de debugging — não uma solução plug-and-play. Implementar essas correções requer conhecimento profundo de FlashAttention, MoE e frameworks de RL.

O QUE OBSERVAR NOS PRÓXIMOS MESES

Release do backward pass: A implementação do FlashAttention-v3 com attention sinks deve ser liberada após review interno do LinkedIn. Isso pode se tornar parte do FlashAttention oficial.

Integração no verl: Com as correções já na versão 0.3.0+, espera-se que o verl se consolide como framework padrão para RL em modelos MoE.

Adoção por outros labs: Se outros times com modelos MoE (Mistral, DeepSeek, Snowflake) adotarem essas práticas, pode se estabelecer como padrão da indústria.

Extensão para escalas maiores: Resultados em clusters maiores e modelos 100B+ serão importantes para validar a generalização.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de RL para LLMs, arquiteturas MoE e treinamento distribuído — esse tema faz parte dos estudos da AI Engineering Academy.


🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp


Termos relacionados: Reinforcement Learning, Mixture of Experts, MoE, PPO, FlashAttention, attention sinks, verl, RLHF, treinamento distribuído, GPT-OSS, LinkedIn AI, agentes LLM, tool calling

Compartilhar:

Quer ir além das notícias?

Aprenda a construir aplicações com IA na AI Engineering Academy.

Conhecer a Academy

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .

Artigos Relacionados