#reinforcement-learning

Artigos sobre reinforcement-learning

14 artigos encontrados

Tutoriais·2 de fevereiro de 2026

Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention

LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...

Papers·20 de janeiro de 2026

Argos: Microsoft Research apresenta framework que reduz alucinações visuais em agentes de IA multimodais

Microsoft Research lança Argos, framework que treina agentes multimodais verificando se o raciocínio está ancorado em ev...

Tutoriais·20 de janeiro de 2026

Amazon SageMaker AI lança customização serverless de modelos e treinamento elástico: o que muda para engenheiros

AWS anuncia customização serverless com agente de IA, treinamento elástico e checkpointless no SageMaker AI, prometendo...

Papers·20 de janeiro de 2026

Behavior Priming: nova técnica de treinamento melhora raciocínio de agentes de busca em até 37%

Novo paper da CMU identifica quatro comportamentos de raciocínio que tornam agentes de busca eficazes e propõe Behavior...

Tutoriais·20 de janeiro de 2026

Técnicas avançadas de fine-tuning para orquestração multi-agente: lições da Amazon em escala de produção

Amazon revela como fine-tuning avançado reduziu 33% dos erros de medicação e 80% do esforço humano em engenharia. Veja a...

Papers·16 de janeiro de 2026

MatchTIR: nova abordagem de supervisão granular para LLMs que usam ferramentas externas

Framework MatchTIR resolve problema de credit assignment em LLMs com tool use, usando bipartite matching para supervisão...

Ferramentas·15 de janeiro de 2026

Unsloth libera RL com contexto 7x maior: treine modelos de 20B com 20K tokens em GPU de 24GB

Unsloth lança técnicas que permitem treinar modelos de 20B parâmetros com contexto de 20K tokens em GPUs de 24GB usando...

Tutoriais·15 de janeiro de 2026

Como treinar agentes de IA para tarefas de linha de comando com dados sintéticos e aprendizado por reforço

A NVIDIA publicou um guia técnico mostrando como treinar agentes de IA para tarefas de linha de comando usando dados sin...

Papers·15 de janeiro de 2026

STEP3-VL-10B: Modelo open-source de 10B supera gigantes de 100B+ em raciocínio visual — o que engenheiros de IA precisam saber

STEP3-VL-10B alcança 92.2% no MMBench e 80.11% no MMMU com apenas 10B de parâmetros, superando modelos como GLM-4.6V-106...

SLIME: novo framework open-source para pós-treinamento de LLMs com Reinforcement Learning

Ferramentas·15 de janeiro de 2026

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .

Artigos sobre reinforcement-learning

Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention

Argos: Microsoft Research apresenta framework que reduz alucinações visuais em agentes de IA multimodais

Amazon SageMaker AI lança customização serverless de modelos e treinamento elástico: o que muda para engenheiros

Behavior Priming: nova técnica de treinamento melhora raciocínio de agentes de busca em até 37%

Técnicas avançadas de fine-tuning para orquestração multi-agente: lições da Amazon em escala de produção

MatchTIR: nova abordagem de supervisão granular para LLMs que usam ferramentas externas

Unsloth libera RL com contexto 7x maior: treine modelos de 20B com 20K tokens em GPU de 24GB

Como treinar agentes de IA para tarefas de linha de comando com dados sintéticos e aprendizado por reforço

STEP3-VL-10B: Modelo open-source de 10B supera gigantes de 100B+ em raciocínio visual — o que engenheiros de IA precisam saber

SLIME: novo framework open-source para pós-treinamento de LLMs com Reinforcement Learning

verl: framework open-source da Volcano Engine simplifica reinforcement learning para LLMs

Agent Lightning: como a Microsoft quer simplificar o uso de Reinforcement Learning em agentes de IA

Nova pesquisa mapeia a 'estrutura molecular' do raciocínio em LLMs — o que engenheiros de IA precisam saber

Multiplex Thinking: nova técnica de raciocínio para LLMs combina múltiplos tokens em um só passo

Fique por dentro das novidades