FOCUS: novo sistema aumenta throughput de Diffusion LLMs em até 3,5x sem perder qualidade

Pesquisadores de múltiplas instituições publicaram um paper apresentando FOCUS, um sistema de inferência que resolve uma ineficiência fundamental nos Diffusion Large Language Models (DLLMs). O sistema consegue até 3,52x mais throughput que engines de produção como LMDeploy.

A descoberta é relevante porque DLLMs estão emergindo como alternativa promissora aos modelos auto-regressivos tradicionais, mas o custo computacional de decodificação tem limitado sua adoção em produção.

Engenheiros de IA que trabalham com serving de modelos de linguagem, especialmente aqueles explorando arquiteturas de difusão, são diretamente impactados por essa pesquisa.

O QUE FOI PUBLICADO

O paper "FOCUS: DLLMs Know How to Tame Their Compute Bound" foi publicado no arXiv em 30 de janeiro de 2026 por Kaihua Liang, Xin Tan, An Zhong, Hong Xu e Marco Canini.

O problema identificado:

Durante a decodificação de DLLMs, a computação é paralelizada sobre blocos de tokens
Porém, apenas uma pequena fração dos tokens é efetivamente decodificável em cada passo de difusão
Resultado: a maior parte do compute é desperdiçada em tokens não-decodificáveis

A solução proposta:

Sistema que dinamicamente foca a computação apenas nos tokens decodificáveis
Evicta tokens não-decodificáveis on-the-fly
Aumenta o effective batch size, aliviando limitações de compute

O código está disponível publicamente em github.com/sands-lab/FOCUS sob licença Apache-2.0.

VISÃO TÉCNICA SIMPLIFICADA

O Que São Diffusion LLMs?

DLLMs são uma classe emergente de modelos de linguagem que usam processos de difusão — similares aos usados em geradores de imagem como Stable Diffusion — para gerar texto. Em vez de prever um token por vez (como GPT), eles refinam iterativamente um bloco inteiro de tokens através de múltiplos passos de "denoising".

A Ineficiência Descoberta

Os pesquisadores observaram que em cada passo de difusão:

O modelo processa um bloco completo de tokens (ex: 16, 32 ou 64 tokens)
Mas apenas alguns desses tokens estão "prontos" para serem decodificados naquele momento
Os demais tokens ainda precisam de mais refinamento

Imagine uma linha de produção onde você processa 64 itens, mas apenas 8 estão prontos para sair. Os outros 56 recebem processamento desnecessário.

O Insight Chave

FOCUS explora uma correlação forte entre:

Importância derivada de atenção: métricas extraídas das camadas de atenção do transformer
Probabilidade de decodificação por token: chance de um token estar pronto para ser finalizado

Usando essa correlação, o sistema consegue prever quais tokens vale a pena processar.

Arquitetura do FOCUS

O sistema implementa três componentes principais:

Importance Scoring: extrai métricas de importância das primeiras camadas do transformer (training-free)
Target Token Selection: seleciona dinamicamente quais tokens processar
State Compaction: compacta o estado durante inferência, removendo tokens não-decodificáveis

Tudo isso é integrado com ragged paged attention para eficiência de memória.

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance

Throughput até 3,52x maior comparado ao LMDeploy
Qualidade de geração mantida ou melhorada em múltiplos benchmarks
Effective batch size aumentado significativamente

💸 Custos

Mesma qualidade com menos compute = redução direta de custo por token
Potencial de rodar modelos maiores na mesma infraestrutura
ROI melhor para quem considera DLLMs em produção

🏗️ Arquitetura

Sistema construído sobre LMDeploy (engine de produção)
Kernels customizados em Triton para scoring, selection e compaction
Suporte a modelos SDAR e LLaDA2.0
Integração com KV-cache management existente

🔐 Riscos

Ainda é pesquisa — não é drop-in replacement para sistemas em produção
Dependência de CUDA 11+ (CUDA 12 recomendado)
Número limitado de modelos suportados atualmente

🧪 Maturidade

Código open-source disponível e testável
Benchmarks reproduzíveis incluídos no repositório
1.726 commits indicam desenvolvimento ativo
Avaliação de qualidade via OpenCompass suite

CASOS DE USO REAIS E POTENCIAIS

Serving de Alta Demanda Empresas que servem DLLMs em produção podem multiplicar throughput sem adicionar hardware. Especialmente relevante para cenários de batch processing.

Chatbots e Agentes com DLLMs Se DLLMs ganharem tração como alternativa a modelos auto-regressivos, FOCUS será essencial para viabilizar latência aceitável.

Experimentação com Arquiteturas de Difusão Pesquisadores e engenheiros explorando DLLMs ganham uma ferramenta para tornar experimentos mais rápidos e baratos.

Pipelines de Geração em Lote Casos de uso como geração de conteúdo em massa, data augmentation, ou síntese de dados para treinamento podem se beneficiar do throughput aumentado.

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações Técnicas

Modelos suportados: apenas SDAR (8B) e LLaDA2.0-mini por enquanto
Dependência de hardware: requer GPUs NVIDIA com CUDA 11+
Overhead de integração: requer modificações no pipeline de inferência

Considerações de Produção

O sistema é uma implementação de pesquisa, não uma biblioteca de produção polida
Não há garantias de estabilidade ou backward compatibility
Documentação focada em reprodução de resultados, não em uso em produção

Hype vs Realidade

DLLMs ainda não são mainstream — FOCUS otimiza uma tecnologia emergente
Os 3,52x de ganho são em condições específicas de benchmark
Ganhos reais variam conforme workload e configuração

Gaps no Ecossistema

Sem suporte para quantização avançada
Sem benchmarks de latência end-to-end para casos de uso interativos
Integração com outros frameworks (vLLM, TensorRT-LLM) não disponível

O QUE OBSERVAR NOS PRÓXIMOS MESES

Adoção de DLLMs na Indústria Se modelos como LLaDA ganharem tração, FOCUS ou técnicas similares serão essenciais. Acompanhe papers e releases de DLLMs.

Expansão de Modelos Suportados O valor do FOCUS depende de suportar mais arquiteturas. PRs adicionando novos modelos são um sinal positivo.

Integração com Engines Mainstream Se vLLM ou TensorRT-LLM incorporarem técnicas similares, isso validará a abordagem.

Benchmarks de Terceiros Resultados independentes confirmarão se os ganhos se generalizam para workloads reais.

Competição de Técnicas Outras abordagens para otimizar DLLMs podem surgir. FOCUS estabelece um baseline interessante.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas de inferência eficientes — incluindo otimizações de serving, batching dinâmico e técnicas de aceleração — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: Diffusion LLM, DLLM, inferência de modelos, throughput optimization, LMDeploy, attention mechanism, token selection, batch size, serving de modelos, SDAR, LLaDA