APEX-SWE: Novo benchmark avalia se modelos de IA podem executar trabalho real de engenharia de software
O APEX-SWE é um novo benchmark que testa se modelos de IA conseguem executar tarefas reais de engenharia de software, co...
1 artigo encontrado
O APEX-SWE é um novo benchmark que testa se modelos de IA conseguem executar tarefas reais de engenharia de software, co...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .