Liquid AI lança LFM2.5-1.2B-Thinking: modelo de raciocínio com menos de 1GB que roda em qualquer celular

O que há dois anos exigia um datacenter agora roda no seu celular. A Liquid AI acaba de lançar o LFM2.5-1.2B-Thinking, um modelo de linguagem com capacidade de raciocínio que opera inteiramente on-device com apenas 900MB de memória.

Esse lançamento representa um marco importante para engenheiros que trabalham com inferência em edge: pela primeira vez, temos um modelo de "thinking" — aqueles que geram traces internos de raciocínio antes de responder — que compete com modelos maiores enquanto cabe literalmente no bolso.

O impacto é direto para quem desenvolve aplicações móveis, sistemas embarcados, agentes locais e qualquer produto que precise de IA sem depender de cloud. A promessa de democratização da IA generativa nunca esteve tão próxima de se concretizar.

O QUE FOI ANUNCIADO

A Liquid AI, startup fundada por pesquisadores do MIT especializada em arquiteturas alternativas aos transformers, lançou em janeiro de 2026 o LFM2.5-1.2B-Thinking como parte da família LFM2.5.

Principais características anunciadas:

1.17 bilhões de parâmetros com contexto de até 32.768 tokens
Arquitetura híbrida: 10 blocos de convolução LIV com double-gating + 6 blocos GQA (Grouped Query Attention)
Treinamento massivo: 28 trilhões de tokens de pré-treino (expandido de 10T na versão anterior)
Multi-estágio de RL: Reinforcement learning em larga escala para capacidade de raciocínio
Multilíngue: Suporte a 8 idiomas incluindo inglês, chinês, japonês, espanhol e árabe

O modelo está disponível no Hugging Face, na plataforma LEAP da própria Liquid AI e no Playground oficial, com suporte day-one para os principais frameworks de inferência.

VISÃO TÉCNICA SIMPLIFICADA

Por que não é "mais um transformer"?

O LFM2.5-1.2B-Thinking utiliza uma arquitetura que a Liquid AI chama de "híbrida", onde apenas ~20% da computação depende de attention. O restante é processado por convoluções 1D curtas com gates multiplicativos.

Estrutura do modelo:

16 camadas no total
10 blocos de convolução LIV com double-gating (processamento sequencial eficiente)
6 blocos de GQA (Grouped Query Attention para captura de dependências de longo alcance)
Vocabulário de 65.536 tokens
Tensor type: BF16

O que são convoluções LIV?

Diferente de transformers puros que calculam attention sobre toda a sequência (O(n²) em memória), convoluções 1D processam janelas fixas de tokens de forma linear. O "double-gating" adiciona mecanismos de controle que permitem ao modelo decidir quais informações propagar.

Na prática, isso significa:

Memória constante independente do tamanho do contexto processado
Throughput mais alto em CPUs e NPUs
Melhor cache locality para hardware de edge

O diferencial do "Thinking"

Modelos de raciocínio (thinking models) geram uma "cadeia de pensamento" interna antes de produzir a resposta final. O LFM2.5-1.2B-Thinking foi treinado especificamente para:

Gerar traces de raciocínio concisos (não verbosos como alguns concorrentes)
Resolver problemas de forma sistemática
Manter qualidade mesmo com latência de edge

O treinamento combinou:

Supervised fine-tuning
Preference alignment (provavelmente DPO ou similar)
Multi-stage reinforcement learning em larga escala

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance

116 tok/s em CPU AMD (llama.cpp Q4_0)
70 tok/s no Samsung Galaxy S25 Ultra
60-82 tok/s em NPUs AMD Ryzen AI
Mantém ~52 tok/s mesmo com contexto de 16K tokens
Sustenta ~46 tok/s no contexto máximo de 32K

💸 Custos

Zero custo de API para inferência local
856MB de memória em CPU (Q4_0)
719MB no Galaxy S25 Ultra
Elimina necessidade de GPUs para muitos casos de uso
ROI imediato em aplicações de alto volume

🏗️ Arquitetura

Suporte nativo a: Transformers, vLLM, llama.cpp, MLX, ONNX, LM Studio
Formatos disponíveis: Native, GGUF, ONNX, MLX
Hardware suportado: AMD Ryzen AI NPU, Qualcomm Snapdragon (X Elite, Gen4, IoT), Apple Silicon
Integração com FastFlowLM para otimização de NPU

🔐 Riscos

Dados nunca saem do dispositivo — privacy by design
Menor superfície de ataque (sem chamadas de API)
Compliance simplificado para dados sensíveis
Porém: modelo não deve ser usado para tarefas knowledge-intensive ou programação

🧪 Maturidade

Benchmarks competitivos validados:
- MATH-500: 87.96 (raciocínio matemático)
- GSM8K: 85.60 (problemas matemáticos)
- IFEval: 88.42 (instruction following)
- BFCLv3: 56.97 (function calling)
Supera Qwen3-1.7B (thinking mode) na maioria dos benchmarks com 40% menos parâmetros
Ecossistema maduro com suporte day-one dos principais frameworks

CASOS DE USO REAIS E POTENCIAIS

Onde brilha

Agentes on-device: O modelo foi otimizado para tool use e function calling. Isso significa que você pode construir agentes que executam ações localmente — desde automações em smartphones até assistentes em veículos.

RAG local: Com 32K de contexto e excelente performance em instruction following, o modelo serve como backbone para sistemas RAG que precisam rodar offline ou com dados sensíveis.

Data extraction em edge: Extração estruturada de informações de documentos, formulários e textos — ideal para aplicações em campo onde conectividade é limitada.

Assistentes embarcados: IoT, veículos, dispositivos médicos portáteis — qualquer cenário onde latência de rede é inaceitável ou onde dados não podem sair do dispositivo.

Casos específicos por vertical

Healthtech: Análise de sintomas e triagem inicial em dispositivos médicos
Fintech: Processamento de documentos financeiros com dados que não podem ir para cloud
Automotivo: Assistentes de voz que funcionam em túneis e áreas sem sinal
Industrial: Análise de logs e manutenção preditiva em plantas sem conectividade estável

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações técnicas declaradas

A própria Liquid AI é transparente sobre onde o modelo não deve ser usado:

❌ Tarefas knowledge-intensive: O modelo tem conhecimento limitado comparado a modelos maiores
❌ Programação: Não é recomendado para code generation ou debugging
❌ Conteúdo criativo longo: O foco é raciocínio conciso, não geração extensa

Pontos de atenção para produção

Quantização e qualidade: Os benchmarks publicados são em BF16. Performance em Q4_0 (a versão que cabe em 900MB) pode ter degradação — a Liquid AI não publicou benchmarks específicos para versões quantizadas.

Janela de contexto vs memória: Os 719MB são para inferência básica. Contextos longos (16K-32K) exigem mais memória — planeje adequadamente.

Arquitetura não-standard: Apesar do suporte a frameworks populares, a arquitetura híbrida pode ter edge cases não cobertos. Teste extensivamente antes de produção.

Treinamento proprietário: O processo de RL multi-estágio não é detalhado. Reprodutibilidade e fine-tuning customizado podem ser desafiadores.

Hype vs Realidade

O marketing de "melhor modelo thinking abaixo de 1GB" é tecnicamente correto, mas a categoria é nova e pequena. Compare sempre com suas necessidades específicas, não com benchmarks genéricos.

O QUE OBSERVAR NOS PRÓXIMOS MESES

Adoção em produção: Vamos ver quantas aplicações reais emergem usando este modelo. O suporte day-one é promissor, mas produção é diferente de demo.

Fine-tuning community: O modelo base (LFM2.5-1.2B-Base) está disponível. Espere variantes especializadas da comunidade para domínios específicos.

Competição acirrada: Qwen, Gemma e Llama certamente responderão. O espaço de modelos sub-2B para edge está esquentando.

Evolução da arquitetura: A abordagem híbrida da Liquid AI (convoluções + attention limitado) pode se tornar um padrão se os ganhos de eficiência se confirmarem em escala.

Integração com hardware: A parceria com AMD (Ryzen AI) e Qualcomm sugere otimizações de silício específicas. Isso pode criar um moat técnico significativo.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam modelos compactos para edge — incluindo pipelines de inferência eficiente, estratégias de quantização e deployment de agentes locais — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: Liquid AI, LFM2.5, on-device AI, edge inference, thinking models, reasoning models, arquitetura híbrida, convoluções 1D, small language models, llama.cpp, NPU inference, Qwen3, modelos compactos