#benchmarks

Artigos sobre benchmarks

8 artigos encontrados

Papers·20 de janeiro de 2026

Novo estudo compara tokenizadores coupled, semi-decoupled e decoupled para speech-language models, mostrando que arquite...

Tutoriais·20 de janeiro de 2026

Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...

Tutoriais·20 de janeiro de 2026

Teste prático com 5k itens de memória mostra que embedding search falha em queries temporais e multi-hop, enquanto abord...

Papers·15 de janeiro de 2026

STEP3-VL-10B alcança 92.2% no MMBench e 80.11% no MMMU com apenas 10B de parâmetros, superando modelos como GLM-4.6V-106...

Tutoriais·15 de janeiro de 2026

Microsoft lança Fara-7B, modelo agentico de 7B parâmetros que navega na web usando apenas screenshots, sem depender de a...

Papers·15 de janeiro de 2026

Framework VIGIL introduz protocolo verify-before-commit para proteger agentes LLM contra ataques de injeção em tool stre...

Papers·15 de janeiro de 2026

Google apresenta ScreenAI, modelo de 5B parâmetros que combina PaLI com pix2struct para entender interfaces, gráficos e...

Papers·14 de janeiro de 2026

O APEX-SWE é um novo benchmark que testa se modelos de IA conseguem executar tarefas reais de engenharia de software, co...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .