Step-3.5-Flash-int4: o novo rei dos LLMs locais para dispositivos com 128GB de RAM
O Step-3.5-Flash-Int4 da Stepfun AI permite rodar um modelo de 197B parâmetros localmente com 256k de contexto, oferecen...
5 artigos encontrados
O Step-3.5-Flash-Int4 da Stepfun AI permite rodar um modelo de 197B parâmetros localmente com 256k de contexto, oferecen...
Open Responses é um novo padrão de inferência para agentes de IA que padroniza reasoning, tool calling e loops autônomos...
LMCache é uma biblioteca open-source que otimiza inferência de LLMs através de cache inteligente de Key-Value pairs, pro...
DeepSeek apresenta Engram, módulo que moderniza embeddings N-gram para lookup O(1), criando um novo eixo de esparsidade...
Google DeepMind anuncia Gemini 3 Flash, modelo que combina capacidades de fronteira com otimização agressiva de velocida...
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .