Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention
LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...
14 artigos encontrados
LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...
Microsoft Research lança Argos, framework que treina agentes multimodais verificando se o raciocínio está ancorado em ev...
AWS anuncia customização serverless com agente de IA, treinamento elástico e checkpointless no SageMaker AI, prometendo...
Novo paper da CMU identifica quatro comportamentos de raciocínio que tornam agentes de busca eficazes e propõe Behavior...
Amazon revela como fine-tuning avançado reduziu 33% dos erros de medicação e 80% do esforço humano em engenharia. Veja a...
Framework MatchTIR resolve problema de credit assignment em LLMs com tool use, usando bipartite matching para supervisão...
Unsloth lança técnicas que permitem treinar modelos de 20B parâmetros com contexto de 20K tokens em GPUs de 24GB usando...
A NVIDIA publicou um guia técnico mostrando como treinar agentes de IA para tarefas de linha de comando usando dados sin...
STEP3-VL-10B alcança 92.2% no MMBench e 80.11% no MMMU com apenas 10B de parâmetros, superando modelos como GLM-4.6V-106...
THUDM lança SLIME, framework Apache 2.0 para pós-treinamento de LLMs usando Reinforcement Learning em escala. Projeto se...
verl é um framework open-source da Volcano Engine (ByteDance) para reinforcement learning em LLMs, com 18k+ stars e lice...
Microsoft Research lança Agent Lightning, framework que separa execução de agentes do treinamento por RL, permitindo oti...
Paper propõe que trajetórias de Long Chain-of-Thought efetivas possuem estruturas moleculares estáveis com três tipos de...
Multiplex Thinking é uma nova abordagem de raciocínio para LLMs que agrega K tokens candidatos em um único token contínu...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .