Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention
O LinkedIn acaba de publicar um retrospecto técnico detalhando os desafios enfrentados ao treinar seus modelos GPT-OSS (20B e 120B parâmetros) usando reinforcement learning agêntico. O documento revela problemas não triviais envolvendo arquiteturas Mixture of Experts (MoE), inconsistências entre treino e inferência, e a necessidade de implementar backward passes customizados para attention sinks.
Essa publicação é especialmente relevante para engenheiros que trabalham com treinamento de LLMs em escala, pois expõe armadilhas técnicas que podem comprometer completamente a convergência do treinamento — mesmo quando tudo parece estar configurado corretamente.
O impacto é direto para quem está construindo sistemas de IA agênticos: as soluções apresentadas permitem treinar modelos MoE massivos com RL de forma estável, algo que até então apresentava barreiras técnicas significativas.
O QUE FOI PUBLICADO
O LinkedIn publicou no blog da Hugging Face, em 27 de janeiro de 2026, um retrospecto técnico sobre o treinamento de RL agêntico para seus modelos GPT-OSS.
Pontos principais:
- Framework utilizado: verl (framework open-source para treinamento de RL)
- Modelos: GPT-OSS 20B e 120B (arquitetura Mixture of Experts)
- Tasks de teste: GSM8K (matemática single-turn), ReTool (agêntico multi-turn com ferramentas), VerifyIf (instruction following)
- Infraestrutura: 16 nós H200 com sequências de até 16k tokens de resposta
Problema central: O treinamento com PPO (Proximal Policy Optimization) apresentava comportamento instável e gradientes explosivos devido a três issues técnicos distintos que foram identificados e resolvidos.
VISÃO TÉCNICA SIMPLIFICADA
O que é RL Agêntico?
Diferente do RL tradicional que otimiza respostas single-turn, o RL agêntico otimiza processos de decisão completos que envolvem:
- Coleta de dados on-policy via interação agente-ambiente
- Otimização de trajetórias multi-step
- Atribuição de crédito em decisões de longo horizonte
- Integração com tool calling e serviços externos
Desafio 1: Mismatch de Log-Probabilidade em MoE
Em arquiteturas Mixture of Experts, o roteamento de tokens para experts é estocástico. Isso causa um problema sutil mas crítico no PPO:
- O PPO assume que
π(a|s) = π_old(a|s)em treinamento on-policy - Com MoE, dois forward passes produzem roteamentos diferentes
- Resultado: a importance ratio não é 1, violando a premissa on-policy
Solução implementada:
if on_policy:
old_log_prob = log_prob.detach()
else:
old_log_prob = model_inputs["old_log_probs"]
Isso força matematicamente a ratio a ser 1, garantindo comportamento estritamente on-policy.
Desafio 2: Inconsistência Treino-Inferência
O pipeline usava:
- Inferência: vLLM/SGLang com otimizações agressivas (kernels Triton, attention sinks)
- Treinamento: FSDP com FlashAttention-v2 (sem suporte a sinks)
Essa diferença efetivamente convertia o RL on-policy em otimização off-policy, degradando severamente a convergência.
Desafio 3: Attention Sinks no FlashAttention
Os modelos GPT-OSS usam attention sinks — parâmetros escalares aprendíveis por cabeça de atenção que funcionam como "tokens virtuais" na computação do softmax.
Atenção padrão:
scores = QK^T / sqrt(d)
probs = softmax(scores, dim=-1)
output = probs @ V
Atenção com sinks:
scores = QK^T / sqrt(d)
combined = concat([scores, sink_param], dim=-1)
probs = softmax(combined, dim=-1)
probs_content = probs[..., :-1] # Remove componente sink
output = probs_content @ V
O problema: FlashAttention-v2 não suportava sinks, e o backward pass não existia nem na v2 nem na v3. A equipe precisou:
- Adaptar o forward pass do fork do vLLM
- Implementar o backward pass do zero (derivação matemática incluída no paper)
Desafio 4: Materialização de Experts em MoE
O path de inferência do Hugging Face duplicava hidden states para todos os experts:
hidden_states = hidden_states.repeat(num_experts, 1) # 180 GiB no modelo 20B!
A solução foi usar o path de treinamento com loop sequencial — mais lento, mas viável em memória.
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance
- Com as correções, o treinamento converge de forma estável onde antes colapsava
- Gradientes permanecem controlados durante todo o treinamento
- Convergência substancialmente mais rápida que baseline Qwen-2.5-32B
💸 Custos
- Sequence parallelism permite treinar com contextos maiores sem OOM
- Redução de memória por GPU proporcional ao grau de paralelismo
- Evita necessidade de infraestrutura ainda maior para contornar memory issues
🏗️ Arquitetura
- MoE + RL requer tratamento explícito do roteamento não-determinístico
- Consistência entre kernels de treino e inferência é crítica (FlashAttention v2 vs v3)
- Attention sinks não são apenas otimização de inferência — são essenciais para estabilidade de treino
🔐 Riscos
- Usar paths de inferência otimizados durante treino pode quebrar completamente a convergência
- Debugging é complexo: problemas podem parecer de hiperparâmetros quando são de implementação
🧪 Maturidade
- Implementação do backward pass ainda pendente de release público
- Requer fork do vLLM para forward pass
- Específico para framework verl (versão 0.3.0+)
CASOS DE USO REAIS E POTENCIAIS
Sistemas Agênticos com Tool Calling
A capacidade de treinar RL multi-turn de forma estável abre portas para agentes que usam ferramentas (calculadoras, compiladores, APIs) de forma mais sofisticada.
Assistentes de Código
O task ReTool demonstra treinamento com code compiler — aplicável diretamente a copilots e assistentes de programação que precisam iterar sobre código.
Chatbots Enterprise
Empresas com modelos MoE próprios podem aplicar RLHF/RLAIF de forma mais confiável, melhorando instruction following.
Pipelines de Reasoning
Tasks como GSM8K mostram aplicação direta em chain-of-thought e mathematical reasoning, relevante para sistemas que precisam de raciocínio verificável.
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações Técnicas
- Release pendente: O backward pass do FlashAttention-v3 com sinks ainda não está no repositório oficial
- Escala limitada nos resultados: Curvas de aprendizado mostradas apenas para 20B; 120B mencionado como "funciona" sem detalhes
- Escopo de tasks: Resultados em tasks relativamente simples — sem comparação em cenários multi-agente complexos
Dependências
- Específico para framework verl
- Requer fork customizado do vLLM
- Aplicabilidade a outros frameworks de RL (como TRL ou OpenRLHF) não demonstrada
Riscos em Produção
- A solução de forçar importance ratio = 1 é um workaround que não resolve a não-determinismo do roteamento
- Equipes precisam validar se suas arquiteturas MoE específicas apresentam o mesmo comportamento
Hype vs Realidade
O paper é um retrospecto honesto de debugging — não uma solução plug-and-play. Implementar essas correções requer conhecimento profundo de FlashAttention, MoE e frameworks de RL.
O QUE OBSERVAR NOS PRÓXIMOS MESES
Release do backward pass: A implementação do FlashAttention-v3 com attention sinks deve ser liberada após review interno do LinkedIn. Isso pode se tornar parte do FlashAttention oficial.
Integração no verl: Com as correções já na versão 0.3.0+, espera-se que o verl se consolide como framework padrão para RL em modelos MoE.
Adoção por outros labs: Se outros times com modelos MoE (Mistral, DeepSeek, Snowflake) adotarem essas práticas, pode se estabelecer como padrão da indústria.
Extensão para escalas maiores: Resultados em clusters maiores e modelos 100B+ serão importantes para validar a generalização.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de RL para LLMs, arquiteturas MoE e treinamento distribuído — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Reinforcement Learning, Mixture of Experts, MoE, PPO, FlashAttention, attention sinks, verl, RLHF, treinamento distribuído, GPT-OSS, LinkedIn AI, agentes LLM, tool calling
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
MaliciousCorgi: extensões de IA populares vazaram código de 1,5 milhão de desenvolvedores
Duas extensões de IA para VS Code com 1,5 milhão de instalações continham código malicioso idêntico que exfiltrava arqui...
Graph Neural Networks para previsão de demanda: por que séries temporais sozinhas não bastam
Previsão de demanda tradicionalmente trata cada SKU isoladamente. Graph Neural Networks mudam isso ao capturar relações...
10 lições que um programador aprendeu ao se esgotar usando agentes de IA para codificação
Jornalista e programador veterano compartilha insights de 50 projetos usando Claude Code e Codex: da euforia inicial ao...