#inferência

Artigos sobre inferência

6 artigos encontrados

Papers·2 de fevereiro de 2026

Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...

Ferramentas·20 de janeiro de 2026

vLLM-MLX permite rodar LLMs, modelos de visão, áudio e TTS nativamente em Macs com Apple Silicon, alcançando 464 tok/s n...

Tutoriais·20 de janeiro de 2026

Novos benchmarks do GLM-4.7-Flash mostram 4.398 tok/s em H200 com vLLM e 112 tok/s em RTX 6000 Ada usando quantização GG...

Papers·15 de janeiro de 2026

Novo método de agent-guided pruning permite que LLMs decidam adaptativamente como comprimir outros modelos, superando ba...

Mercado·15 de janeiro de 2026

OpenAI anuncia parceria com Cerebras para adicionar 750MW de capacidade computacional de alta velocidade, focando em red...

Papers·14 de janeiro de 2026

Multiplex Thinking é uma nova abordagem de raciocínio para LLMs que agrega K tokens candidatos em um único token contínu...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .