Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention

O LinkedIn acaba de publicar um retrospecto técnico detalhando os desafios enfrentados ao treinar seus modelos GPT-OSS (20B e 120B parâmetros) usando reinforcement learning agêntico. O documento revela problemas não triviais envolvendo arquiteturas Mixture of Experts (MoE), inconsistências entre treino e inferência, e a necessidade de implementar backward passes customizados para attention sinks.

Essa publicação é especialmente relevante para engenheiros que trabalham com treinamento de LLMs em escala, pois expõe armadilhas técnicas que podem comprometer completamente a convergência do treinamento — mesmo quando tudo parece estar configurado corretamente.

O impacto é direto para quem está construindo sistemas de IA agênticos: as soluções apresentadas permitem treinar modelos MoE massivos com RL de forma estável, algo que até então apresentava barreiras técnicas significativas.

O QUE FOI PUBLICADO

O LinkedIn publicou no blog da Hugging Face, em 27 de janeiro de 2026, um retrospecto técnico sobre o treinamento de RL agêntico para seus modelos GPT-OSS.

Pontos principais:

Framework utilizado: verl (framework open-source para treinamento de RL)
Modelos: GPT-OSS 20B e 120B (arquitetura Mixture of Experts)
Tasks de teste: GSM8K (matemática single-turn), ReTool (agêntico multi-turn com ferramentas), VerifyIf (instruction following)
Infraestrutura: 16 nós H200 com sequências de até 16k tokens de resposta

Problema central: O treinamento com PPO (Proximal Policy Optimization) apresentava comportamento instável e gradientes explosivos devido a três issues técnicos distintos que foram identificados e resolvidos.

VISÃO TÉCNICA SIMPLIFICADA

O que é RL Agêntico?

Diferente do RL tradicional que otimiza respostas single-turn, o RL agêntico otimiza processos de decisão completos que envolvem:

Coleta de dados on-policy via interação agente-ambiente
Otimização de trajetórias multi-step
Atribuição de crédito em decisões de longo horizonte
Integração com tool calling e serviços externos

Desafio 1: Mismatch de Log-Probabilidade em MoE

Em arquiteturas Mixture of Experts, o roteamento de tokens para experts é estocástico. Isso causa um problema sutil mas crítico no PPO:

O PPO assume que π(a|s) = π_old(a|s) em treinamento on-policy
Com MoE, dois forward passes produzem roteamentos diferentes
Resultado: a importance ratio não é 1, violando a premissa on-policy

Solução implementada:

if on_policy:
    old_log_prob = log_prob.detach()
else:
    old_log_prob = model_inputs["old_log_probs"]

Isso força matematicamente a ratio a ser 1, garantindo comportamento estritamente on-policy.

Desafio 2: Inconsistência Treino-Inferência

O pipeline usava:

Inferência: vLLM/SGLang com otimizações agressivas (kernels Triton, attention sinks)
Treinamento: FSDP com FlashAttention-v2 (sem suporte a sinks)

Essa diferença efetivamente convertia o RL on-policy em otimização off-policy, degradando severamente a convergência.

Desafio 3: Attention Sinks no FlashAttention

Os modelos GPT-OSS usam attention sinks — parâmetros escalares aprendíveis por cabeça de atenção que funcionam como "tokens virtuais" na computação do softmax.

Atenção padrão:

scores = QK^T / sqrt(d)
probs = softmax(scores, dim=-1)
output = probs @ V

Atenção com sinks:

scores = QK^T / sqrt(d)
combined = concat([scores, sink_param], dim=-1)
probs = softmax(combined, dim=-1)
probs_content = probs[..., :-1]  # Remove componente sink
output = probs_content @ V

O problema: FlashAttention-v2 não suportava sinks, e o backward pass não existia nem na v2 nem na v3. A equipe precisou:

Adaptar o forward pass do fork do vLLM
Implementar o backward pass do zero (derivação matemática incluída no paper)

Desafio 4: Materialização de Experts em MoE

O path de inferência do Hugging Face duplicava hidden states para todos os experts:

hidden_states = hidden_states.repeat(num_experts, 1)  # 180 GiB no modelo 20B!

A solução foi usar o path de treinamento com loop sequencial — mais lento, mas viável em memória.

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance

Com as correções, o treinamento converge de forma estável onde antes colapsava
Gradientes permanecem controlados durante todo o treinamento
Convergência substancialmente mais rápida que baseline Qwen-2.5-32B

💸 Custos

Sequence parallelism permite treinar com contextos maiores sem OOM
Redução de memória por GPU proporcional ao grau de paralelismo
Evita necessidade de infraestrutura ainda maior para contornar memory issues

🏗️ Arquitetura

MoE + RL requer tratamento explícito do roteamento não-determinístico
Consistência entre kernels de treino e inferência é crítica (FlashAttention v2 vs v3)
Attention sinks não são apenas otimização de inferência — são essenciais para estabilidade de treino

🔐 Riscos

Usar paths de inferência otimizados durante treino pode quebrar completamente a convergência
Debugging é complexo: problemas podem parecer de hiperparâmetros quando são de implementação

🧪 Maturidade

Implementação do backward pass ainda pendente de release público
Requer fork do vLLM para forward pass
Específico para framework verl (versão 0.3.0+)

CASOS DE USO REAIS E POTENCIAIS

Sistemas Agênticos com Tool Calling

A capacidade de treinar RL multi-turn de forma estável abre portas para agentes que usam ferramentas (calculadoras, compiladores, APIs) de forma mais sofisticada.

Assistentes de Código

O task ReTool demonstra treinamento com code compiler — aplicável diretamente a copilots e assistentes de programação que precisam iterar sobre código.

Chatbots Enterprise

Empresas com modelos MoE próprios podem aplicar RLHF/RLAIF de forma mais confiável, melhorando instruction following.

Pipelines de Reasoning

Tasks como GSM8K mostram aplicação direta em chain-of-thought e mathematical reasoning, relevante para sistemas que precisam de raciocínio verificável.

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

Release pendente: O backward pass do FlashAttention-v3 com sinks ainda não está no repositório oficial
Escala limitada nos resultados: Curvas de aprendizado mostradas apenas para 20B; 120B mencionado como "funciona" sem detalhes
Escopo de tasks: Resultados em tasks relativamente simples — sem comparação em cenários multi-agente complexos

Dependências

Específico para framework verl
Requer fork customizado do vLLM
Aplicabilidade a outros frameworks de RL (como TRL ou OpenRLHF) não demonstrada

Riscos em Produção

A solução de forçar importance ratio = 1 é um workaround que não resolve a não-determinismo do roteamento
Equipes precisam validar se suas arquiteturas MoE específicas apresentam o mesmo comportamento

Hype vs Realidade

O paper é um retrospecto honesto de debugging — não uma solução plug-and-play. Implementar essas correções requer conhecimento profundo de FlashAttention, MoE e frameworks de RL.

O QUE OBSERVAR NOS PRÓXIMOS MESES

Release do backward pass: A implementação do FlashAttention-v3 com attention sinks deve ser liberada após review interno do LinkedIn. Isso pode se tornar parte do FlashAttention oficial.

Integração no verl: Com as correções já na versão 0.3.0+, espera-se que o verl se consolide como framework padrão para RL em modelos MoE.

Adoção por outros labs: Se outros times com modelos MoE (Mistral, DeepSeek, Snowflake) adotarem essas práticas, pode se estabelecer como padrão da indústria.

Extensão para escalas maiores: Resultados em clusters maiores e modelos 100B+ serão importantes para validar a generalização.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de RL para LLMs, arquiteturas MoE e treinamento distribuído — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: Reinforcement Learning, Mixture of Experts, MoE, PPO, FlashAttention, attention sinks, verl, RLHF, treinamento distribuído, GPT-OSS, LinkedIn AI, agentes LLM, tool calling