Step-3.5-Flash-int4: o novo rei dos LLMs locais para dispositivos com 128GB de RAM
Um novo modelo de linguagem está dominando as discussões na comunidade de LLMs locais. O Step-3.5-Flash-Int4, da chinesa Stepfun AI, consegue rodar em dispositivos com 128GB de memória unificada — como o Mac Studio com chip M1 Ultra — com contexto completo de 256 mil tokens e performance surpreendente.
Para engenheiros de IA que trabalham com inferência local, isso representa uma mudança significativa: modelos desse porte antes exigiam clusters de GPUs ou APIs na nuvem. Agora, é possível executar testes, protótipos e até agentes de código em hardware de desktop.
O impacto direto é para quem desenvolve aplicações que exigem contextos longos — como assistentes de código, análise de documentos extensos e agentes autônomos — sem depender de infraestrutura externa ou custos recorrentes de API.
O QUE FOI ANUNCIADO
A Stepfun AI disponibilizou no Hugging Face o modelo Step-3.5-Flash-Int4, uma versão quantizada em 4 bits do Step-3.5-Flash, com as seguintes características:
- Tamanho do modelo: 103.84 GiB (quantizado Q4_K_S)
- Parâmetros: aproximadamente 197 bilhões
- Contexto máximo: 256.000 tokens
- Formato: GGUF (compatível com llama.cpp via fork)
- Repositório: stepfun-ai/Step-3.5-Flash-Int4
O modelo foi testado pela comunidade r/LocalLLaMA, com relatos de que supera — ou ao menos iguala — modelos como GLM 4.7 e Minimax 2.1 em tarefas de código, com uso de memória mais eficiente.
Atualmente, é necessário compilar um fork do llama.cpp para rodar o modelo, mas a expectativa da comunidade é que o suporte seja integrado ao projeto principal em breve.
VISÃO TÉCNICA SIMPLIFICADA
Quantização Q4_K e o formato GGUF
O modelo utiliza quantização Q4_K_S (4 bits com otimizações de grupo), uma técnica que reduz drasticamente o uso de memória mantendo boa parte da qualidade do modelo original. O formato GGUF é o padrão moderno do llama.cpp, otimizado para carregar modelos de forma eficiente em CPU e GPUs com memória unificada.
Performance em diferentes profundidades de contexto
Benchmarks executados com llama-bench mostram como a performance escala com o tamanho do contexto:
| Profundidade (tokens) | Prompt Processing (t/s) | Geração (t/s) |
|---|---|---|
| 0 | 281 | 34.7 |
| 10.000 | 248 | 31.7 |
| 50.000 | 168 | 25.4 |
| 100.000 | 118 | 19.8 |
Mesmo com 100k tokens de contexto prévio, o modelo mantém ~20 tokens por segundo na geração — usável para aplicações interativas e agentes CLI.
Arquitetura de memória unificada
O modelo se beneficia enormemente da arquitetura de memória unificada dos chips Apple Silicon. Diferente de configurações com GPU dedicada, onde há gargalo na transferência CPU↔GPU, o M1/M2/M3 Ultra compartilha o mesmo espaço de memória entre CPU e GPU Neural Engine, eliminando essa latência.
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance: Com ~35 t/s em contexto curto e ~20 t/s em 100k tokens, o modelo é viável para uso interativo. A velocidade de prompt processing (prefill) também é competitiva, permitindo carregar documentos extensos rapidamente.
💸 Custos: Elimina custos de API para desenvolvimento e prototipagem. Um Mac Studio com 128GB custa uma fração do que seria manter um cluster de A100s ou pagar por milhões de tokens em APIs comerciais.
🏗️ Arquitetura: Viabiliza arquiteturas de agentes e RAG totalmente locais. O contexto de 256k tokens permite ingerir codebases inteiras ou documentos longos sem chunking agressivo.
🔐 Riscos: Dados sensíveis nunca saem da máquina local. Ideal para empresas com requisitos de compliance ou desenvolvedores trabalhando com código proprietário.
🧪 Maturidade: Ainda requer fork do llama.cpp — não está pronto para produção sem trabalho adicional. A comunidade está ativamente testando e reportando problemas.
CASOS DE USO REAIS E POTENCIAIS
Assistentes de código locais
O caso de uso mais imediato. Com 256k de contexto, é possível carregar projetos inteiros e fazer perguntas sobre a codebase, refatorações ou debugging sem enviar código para a nuvem.
Agentes autônomos de CLI
O autor original do post pretende testar o modelo para "agentic coding" — agentes que executam tarefas de programação autonomamente. A combinação de contexto longo e velocidade razoável de geração torna isso prático.
Análise de documentos jurídicos e técnicos
Documentos de centenas de páginas podem ser processados de uma vez, sem a complexidade de pipelines de chunking e retrieval.
Desenvolvimento offline
Para quem trabalha em ambientes sem conectividade confiável ou com restrições de rede, ter um modelo de ponta disponível localmente é transformador.
Prototipagem de produtos de IA
Startups e equipes pequenas podem iterar rapidamente em produtos baseados em LLM sem custos de API durante a fase de desenvolvimento.
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Requisitos de hardware específicos
O modelo é otimizado para Apple Silicon com 128GB de RAM unificada. Rodar em hardware NVIDIA exigiria múltiplas GPUs de alto custo. Não é uma solução universal.
Fork necessário do llama.cpp
Atualmente não funciona com a versão oficial do llama.cpp. Isso adiciona complexidade de manutenção e pode quebrar com atualizações do projeto principal.
Quantização reduz qualidade
A versão Int4 é uma aproximação do modelo original. Para tarefas que exigem máxima precisão (matemática complexa, raciocínio sutil), pode haver degradação perceptível.
Testes limitados até o momento
Os benchmarks são de um único usuário em um único hardware. Faltam avaliações sistemáticas em benchmarks padronizados como HumanEval, MMLU ou outros.
Origem e documentação
A Stepfun AI é uma empresa chinesa com menos visibilidade no Ocidente. Documentação sobre arquitetura, dados de treinamento e fine-tuning é limitada.
O QUE OBSERVAR NOS PRÓXIMOS MESES
Integração ao llama.cpp mainstream: Se o modelo for aceito no projeto principal, a adoção deve acelerar significativamente. Acompanhe os PRs e issues relacionados.
Benchmarks independentes: Espere comparações mais rigorosas contra Claude, GPT-4, Llama 3 e outros modelos em tarefas específicas de código e raciocínio.
Versões para outros hardwares: Quantizações adicionais (Q5, Q6) ou otimizações para hardware NVIDIA podem expandir o alcance do modelo.
Movimentos da Stepfun AI: A empresa pode lançar versões comerciais, APIs ou modelos maiores. Vale monitorar o roadmap.
Concorrência local: Modelos como Qwen 2.5, Llama 3 e Mistral continuam evoluindo. A competição por eficiência em hardware de consumo está aquecida.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam modelos locais de alta capacidade — incluindo pipelines de inferência eficiente, RAG com contextos longos e agentes autônomos — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Step-3.5-Flash, LLM local, quantização int4, GGUF, llama.cpp, Apple Silicon, memória unificada, contexto longo, inferência local, Stepfun AI
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Browser-Use: o framework open source que transforma qualquer site em API para agentes de IA
Browser-Use é um framework Python que permite a agentes de IA navegar, interagir e extrair dados de qualquer website atr...
Mem0: A camada de memória universal para agentes de IA que pode reduzir 90% dos custos com tokens
Mem0 é uma biblioteca open-source que adiciona memória de longo prazo a agentes de IA, prometendo 91% menos latência e 9...
PerpetualBooster v1.1.2: Gradient Boosting sem tuning de hiperparâmetros agora 2x mais rápido com suporte a ONNX e XGBoost
PerpetualBooster v1.1.2 traz treinamento 2x mais rápido, suporte a ONNX e exportação nativa para XGBoost. A biblioteca e...