FOCUS: novo sistema aumenta throughput de Diffusion LLMs em até 3,5x sem perder qualidade
Pesquisadores de múltiplas instituições publicaram um paper apresentando FOCUS, um sistema de inferência que resolve uma ineficiência fundamental nos Diffusion Large Language Models (DLLMs). O sistema consegue até 3,52x mais throughput que engines de produção como LMDeploy.
A descoberta é relevante porque DLLMs estão emergindo como alternativa promissora aos modelos auto-regressivos tradicionais, mas o custo computacional de decodificação tem limitado sua adoção em produção.
Engenheiros de IA que trabalham com serving de modelos de linguagem, especialmente aqueles explorando arquiteturas de difusão, são diretamente impactados por essa pesquisa.
O QUE FOI PUBLICADO
O paper "FOCUS: DLLMs Know How to Tame Their Compute Bound" foi publicado no arXiv em 30 de janeiro de 2026 por Kaihua Liang, Xin Tan, An Zhong, Hong Xu e Marco Canini.
O problema identificado:
- Durante a decodificação de DLLMs, a computação é paralelizada sobre blocos de tokens
- Porém, apenas uma pequena fração dos tokens é efetivamente decodificável em cada passo de difusão
- Resultado: a maior parte do compute é desperdiçada em tokens não-decodificáveis
A solução proposta:
- Sistema que dinamicamente foca a computação apenas nos tokens decodificáveis
- Evicta tokens não-decodificáveis on-the-fly
- Aumenta o effective batch size, aliviando limitações de compute
O código está disponível publicamente em github.com/sands-lab/FOCUS sob licença Apache-2.0.
VISÃO TÉCNICA SIMPLIFICADA
O Que São Diffusion LLMs?
DLLMs são uma classe emergente de modelos de linguagem que usam processos de difusão — similares aos usados em geradores de imagem como Stable Diffusion — para gerar texto. Em vez de prever um token por vez (como GPT), eles refinam iterativamente um bloco inteiro de tokens através de múltiplos passos de "denoising".
A Ineficiência Descoberta
Os pesquisadores observaram que em cada passo de difusão:
- O modelo processa um bloco completo de tokens (ex: 16, 32 ou 64 tokens)
- Mas apenas alguns desses tokens estão "prontos" para serem decodificados naquele momento
- Os demais tokens ainda precisam de mais refinamento
Imagine uma linha de produção onde você processa 64 itens, mas apenas 8 estão prontos para sair. Os outros 56 recebem processamento desnecessário.
O Insight Chave
FOCUS explora uma correlação forte entre:
- Importância derivada de atenção: métricas extraídas das camadas de atenção do transformer
- Probabilidade de decodificação por token: chance de um token estar pronto para ser finalizado
Usando essa correlação, o sistema consegue prever quais tokens vale a pena processar.
Arquitetura do FOCUS
O sistema implementa três componentes principais:
- Importance Scoring: extrai métricas de importância das primeiras camadas do transformer (training-free)
- Target Token Selection: seleciona dinamicamente quais tokens processar
- State Compaction: compacta o estado durante inferência, removendo tokens não-decodificáveis
Tudo isso é integrado com ragged paged attention para eficiência de memória.
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance
- Throughput até 3,52x maior comparado ao LMDeploy
- Qualidade de geração mantida ou melhorada em múltiplos benchmarks
- Effective batch size aumentado significativamente
💸 Custos
- Mesma qualidade com menos compute = redução direta de custo por token
- Potencial de rodar modelos maiores na mesma infraestrutura
- ROI melhor para quem considera DLLMs em produção
🏗️ Arquitetura
- Sistema construído sobre LMDeploy (engine de produção)
- Kernels customizados em Triton para scoring, selection e compaction
- Suporte a modelos SDAR e LLaDA2.0
- Integração com KV-cache management existente
🔐 Riscos
- Ainda é pesquisa — não é drop-in replacement para sistemas em produção
- Dependência de CUDA 11+ (CUDA 12 recomendado)
- Número limitado de modelos suportados atualmente
🧪 Maturidade
- Código open-source disponível e testável
- Benchmarks reproduzíveis incluídos no repositório
- 1.726 commits indicam desenvolvimento ativo
- Avaliação de qualidade via OpenCompass suite
CASOS DE USO REAIS E POTENCIAIS
Serving de Alta Demanda Empresas que servem DLLMs em produção podem multiplicar throughput sem adicionar hardware. Especialmente relevante para cenários de batch processing.
Chatbots e Agentes com DLLMs Se DLLMs ganharem tração como alternativa a modelos auto-regressivos, FOCUS será essencial para viabilizar latência aceitável.
Experimentação com Arquiteturas de Difusão Pesquisadores e engenheiros explorando DLLMs ganham uma ferramenta para tornar experimentos mais rápidos e baratos.
Pipelines de Geração em Lote Casos de uso como geração de conteúdo em massa, data augmentation, ou síntese de dados para treinamento podem se beneficiar do throughput aumentado.
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações Técnicas
- Modelos suportados: apenas SDAR (8B) e LLaDA2.0-mini por enquanto
- Dependência de hardware: requer GPUs NVIDIA com CUDA 11+
- Overhead de integração: requer modificações no pipeline de inferência
Considerações de Produção
- O sistema é uma implementação de pesquisa, não uma biblioteca de produção polida
- Não há garantias de estabilidade ou backward compatibility
- Documentação focada em reprodução de resultados, não em uso em produção
Hype vs Realidade
- DLLMs ainda não são mainstream — FOCUS otimiza uma tecnologia emergente
- Os 3,52x de ganho são em condições específicas de benchmark
- Ganhos reais variam conforme workload e configuração
Gaps no Ecossistema
- Sem suporte para quantização avançada
- Sem benchmarks de latência end-to-end para casos de uso interativos
- Integração com outros frameworks (vLLM, TensorRT-LLM) não disponível
O QUE OBSERVAR NOS PRÓXIMOS MESES
Adoção de DLLMs na Indústria Se modelos como LLaDA ganharem tração, FOCUS ou técnicas similares serão essenciais. Acompanhe papers e releases de DLLMs.
Expansão de Modelos Suportados O valor do FOCUS depende de suportar mais arquiteturas. PRs adicionando novos modelos são um sinal positivo.
Integração com Engines Mainstream Se vLLM ou TensorRT-LLM incorporarem técnicas similares, isso validará a abordagem.
Benchmarks de Terceiros Resultados independentes confirmarão se os ganhos se generalizam para workloads reais.
Competição de Técnicas Outras abordagens para otimizar DLLMs podem surgir. FOCUS estabelece um baseline interessante.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas de inferência eficientes — incluindo otimizações de serving, batching dinâmico e técnicas de aceleração — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Diffusion LLM, DLLM, inferência de modelos, throughput optimization, LMDeploy, attention mechanism, token selection, batch size, serving de modelos, SDAR, LLaDA
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Trajectory2Task: novo pipeline de dados sintéticos promete agentes de IA mais robustos para cenários reais de uso de ferramentas
Novo paper propõe pipeline de geração de dados verificáveis para treinar agentes de tool-calling em cenários realistas....
VideoGPA: novo framework usa priors geométricos para vídeos 3D-consistentes via DPO
VideoGPA introduz uma abordagem data-efficient que usa sinais de preferência derivados de modelos geométricos para guiar...
TTARAG: novo método adapta modelos de linguagem em tempo real para melhorar RAG em domínios especializados
TTARAG introduz adaptação em tempo de teste para sistemas RAG, atualizando dinamicamente os parâmetros do modelo durante...