Liquid AI lança LFM2.5-1.2B-Thinking: modelo de raciocínio com menos de 1GB que roda em qualquer celular
O que há dois anos exigia um datacenter agora roda no seu celular. A Liquid AI acaba de lançar o LFM2.5-1.2B-Thinking, um modelo de linguagem com capacidade de raciocínio que opera inteiramente on-device com apenas 900MB de memória.
Esse lançamento representa um marco importante para engenheiros que trabalham com inferência em edge: pela primeira vez, temos um modelo de "thinking" — aqueles que geram traces internos de raciocínio antes de responder — que compete com modelos maiores enquanto cabe literalmente no bolso.
O impacto é direto para quem desenvolve aplicações móveis, sistemas embarcados, agentes locais e qualquer produto que precise de IA sem depender de cloud. A promessa de democratização da IA generativa nunca esteve tão próxima de se concretizar.
O QUE FOI ANUNCIADO
A Liquid AI, startup fundada por pesquisadores do MIT especializada em arquiteturas alternativas aos transformers, lançou em janeiro de 2026 o LFM2.5-1.2B-Thinking como parte da família LFM2.5.
Principais características anunciadas:
- 1.17 bilhões de parâmetros com contexto de até 32.768 tokens
- Arquitetura híbrida: 10 blocos de convolução LIV com double-gating + 6 blocos GQA (Grouped Query Attention)
- Treinamento massivo: 28 trilhões de tokens de pré-treino (expandido de 10T na versão anterior)
- Multi-estágio de RL: Reinforcement learning em larga escala para capacidade de raciocínio
- Multilíngue: Suporte a 8 idiomas incluindo inglês, chinês, japonês, espanhol e árabe
O modelo está disponível no Hugging Face, na plataforma LEAP da própria Liquid AI e no Playground oficial, com suporte day-one para os principais frameworks de inferência.
VISÃO TÉCNICA SIMPLIFICADA
Por que não é "mais um transformer"?
O LFM2.5-1.2B-Thinking utiliza uma arquitetura que a Liquid AI chama de "híbrida", onde apenas ~20% da computação depende de attention. O restante é processado por convoluções 1D curtas com gates multiplicativos.
Estrutura do modelo:
- 16 camadas no total
- 10 blocos de convolução LIV com double-gating (processamento sequencial eficiente)
- 6 blocos de GQA (Grouped Query Attention para captura de dependências de longo alcance)
- Vocabulário de 65.536 tokens
- Tensor type: BF16
O que são convoluções LIV?
Diferente de transformers puros que calculam attention sobre toda a sequência (O(n²) em memória), convoluções 1D processam janelas fixas de tokens de forma linear. O "double-gating" adiciona mecanismos de controle que permitem ao modelo decidir quais informações propagar.
Na prática, isso significa:
- Memória constante independente do tamanho do contexto processado
- Throughput mais alto em CPUs e NPUs
- Melhor cache locality para hardware de edge
O diferencial do "Thinking"
Modelos de raciocínio (thinking models) geram uma "cadeia de pensamento" interna antes de produzir a resposta final. O LFM2.5-1.2B-Thinking foi treinado especificamente para:
- Gerar traces de raciocínio concisos (não verbosos como alguns concorrentes)
- Resolver problemas de forma sistemática
- Manter qualidade mesmo com latência de edge
O treinamento combinou:
- Supervised fine-tuning
- Preference alignment (provavelmente DPO ou similar)
- Multi-stage reinforcement learning em larga escala
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance
- 116 tok/s em CPU AMD (llama.cpp Q4_0)
- 70 tok/s no Samsung Galaxy S25 Ultra
- 60-82 tok/s em NPUs AMD Ryzen AI
- Mantém ~52 tok/s mesmo com contexto de 16K tokens
- Sustenta ~46 tok/s no contexto máximo de 32K
💸 Custos
- Zero custo de API para inferência local
- 856MB de memória em CPU (Q4_0)
- 719MB no Galaxy S25 Ultra
- Elimina necessidade de GPUs para muitos casos de uso
- ROI imediato em aplicações de alto volume
🏗️ Arquitetura
- Suporte nativo a: Transformers, vLLM, llama.cpp, MLX, ONNX, LM Studio
- Formatos disponíveis: Native, GGUF, ONNX, MLX
- Hardware suportado: AMD Ryzen AI NPU, Qualcomm Snapdragon (X Elite, Gen4, IoT), Apple Silicon
- Integração com FastFlowLM para otimização de NPU
🔐 Riscos
- Dados nunca saem do dispositivo — privacy by design
- Menor superfície de ataque (sem chamadas de API)
- Compliance simplificado para dados sensíveis
- Porém: modelo não deve ser usado para tarefas knowledge-intensive ou programação
🧪 Maturidade
- Benchmarks competitivos validados:
- MATH-500: 87.96 (raciocínio matemático)
- GSM8K: 85.60 (problemas matemáticos)
- IFEval: 88.42 (instruction following)
- BFCLv3: 56.97 (function calling)
- Supera Qwen3-1.7B (thinking mode) na maioria dos benchmarks com 40% menos parâmetros
- Ecossistema maduro com suporte day-one dos principais frameworks
CASOS DE USO REAIS E POTENCIAIS
Onde brilha
Agentes on-device: O modelo foi otimizado para tool use e function calling. Isso significa que você pode construir agentes que executam ações localmente — desde automações em smartphones até assistentes em veículos.
RAG local: Com 32K de contexto e excelente performance em instruction following, o modelo serve como backbone para sistemas RAG que precisam rodar offline ou com dados sensíveis.
Data extraction em edge: Extração estruturada de informações de documentos, formulários e textos — ideal para aplicações em campo onde conectividade é limitada.
Assistentes embarcados: IoT, veículos, dispositivos médicos portáteis — qualquer cenário onde latência de rede é inaceitável ou onde dados não podem sair do dispositivo.
Casos específicos por vertical
- Healthtech: Análise de sintomas e triagem inicial em dispositivos médicos
- Fintech: Processamento de documentos financeiros com dados que não podem ir para cloud
- Automotivo: Assistentes de voz que funcionam em túneis e áreas sem sinal
- Industrial: Análise de logs e manutenção preditiva em plantas sem conectividade estável
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações técnicas declaradas
A própria Liquid AI é transparente sobre onde o modelo não deve ser usado:
- ❌ Tarefas knowledge-intensive: O modelo tem conhecimento limitado comparado a modelos maiores
- ❌ Programação: Não é recomendado para code generation ou debugging
- ❌ Conteúdo criativo longo: O foco é raciocínio conciso, não geração extensa
Pontos de atenção para produção
Quantização e qualidade: Os benchmarks publicados são em BF16. Performance em Q4_0 (a versão que cabe em 900MB) pode ter degradação — a Liquid AI não publicou benchmarks específicos para versões quantizadas.
Janela de contexto vs memória: Os 719MB são para inferência básica. Contextos longos (16K-32K) exigem mais memória — planeje adequadamente.
Arquitetura não-standard: Apesar do suporte a frameworks populares, a arquitetura híbrida pode ter edge cases não cobertos. Teste extensivamente antes de produção.
Treinamento proprietário: O processo de RL multi-estágio não é detalhado. Reprodutibilidade e fine-tuning customizado podem ser desafiadores.
Hype vs Realidade
O marketing de "melhor modelo thinking abaixo de 1GB" é tecnicamente correto, mas a categoria é nova e pequena. Compare sempre com suas necessidades específicas, não com benchmarks genéricos.
O QUE OBSERVAR NOS PRÓXIMOS MESES
Adoção em produção: Vamos ver quantas aplicações reais emergem usando este modelo. O suporte day-one é promissor, mas produção é diferente de demo.
Fine-tuning community: O modelo base (LFM2.5-1.2B-Base) está disponível. Espere variantes especializadas da comunidade para domínios específicos.
Competição acirrada: Qwen, Gemma e Llama certamente responderão. O espaço de modelos sub-2B para edge está esquentando.
Evolução da arquitetura: A abordagem híbrida da Liquid AI (convoluções + attention limitado) pode se tornar um padrão se os ganhos de eficiência se confirmarem em escala.
Integração com hardware: A parceria com AMD (Ryzen AI) e Qualcomm sugere otimizações de silício específicas. Isso pode criar um moat técnico significativo.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam modelos compactos para edge — incluindo pipelines de inferência eficiente, estratégias de quantização e deployment de agentes locais — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Liquid AI, LFM2.5, on-device AI, edge inference, thinking models, reasoning models, arquitetura híbrida, convoluções 1D, small language models, llama.cpp, NPU inference, Qwen3, modelos compactos
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Google Auto Browse: o agente de IA que navega por você no Chrome ainda não está pronto para o trabalho real
O Auto Browse do Google promete automatizar compras e planejamento no Chrome, mas testes mostram falhas críticas em julg...
OpenAI lança Codex App para macOS: centro de comando com múltiplos agentes e workflows paralelos para engenheiros de IA
OpenAI apresenta Codex App para macOS, uma interface desktop para gerenciar múltiplos agentes de IA, executar workflows...
OpenClaw: o agente de IA open source que está conquistando a comunidade tech — e os riscos que vêm junto
OpenClaw é um agente de IA open source que roda localmente e integra com WhatsApp, Telegram e Discord. Com 145k stars no...