MHA2MLA-VLM: como converter modelos de visão-linguagem para a arquitetura de atenção eficiente do DeepSeek
Se você trabalha com modelos de visão-linguagem (VLMs) em produção, sabe que o KV cache é um dos maiores gargalos de memória e latência durante a inferência. Agora, uma nova pesquisa propõe uma solução elegante: converter VLMs existentes para usar a arquitetura Multi-Head Latent Attention (MLA) — a mesma técnica que tornou os modelos DeepSeek-V2 e V3 famosos por sua eficiência.
O paper MHA2MLA-VLM apresenta um framework que permite essa conversão sem o custo proibitivo de retreinar modelos do zero. Em testes com LLaVA-1.5, LLaVA-NeXT e Qwen2.5-VL, os pesquisadores demonstraram reduções de até 94,64% no KV cache mantendo performance comparável ao modelo original.
Para engenheiros de IA que servem VLMs em escala, isso significa: menos memória GPU, menor latência e custos operacionais reduzidos — sem sacrificar a qualidade das respostas.
O que foi publicado
O paper foi publicado no arXiv em 16 de janeiro de 2026, por pesquisadores das universidades chinesas, incluindo Xiaoran Fan, Zhichao Sun, Tao Ji, Lixing Shen e Tao Gui.
O problema atacado: VLMs modernos como LLaVA e Qwen processam imagens e texto simultaneamente, gerando KV caches massivos que crescem linearmente com o comprimento da sequência. Em tarefas complexas com múltiplas imagens ou contextos longos, isso rapidamente esgota a memória GPU disponível.
A proposta: Um framework chamado MHA2MLA-VLM que converte modelos existentes (treinados com Multi-Head Attention ou Grouped-Query Attention) para a arquitetura MLA, comprimindo o KV cache em vetores latentes de baixa dimensionalidade.
Diferencial: O trabalho estende pesquisas anteriores (MHA2MLA para LLMs) para o domínio multimodal, introduzindo técnicas específicas para lidar com tokens visuais e textuais de forma diferenciada.
Visão técnica simplificada
O que é Multi-Head Latent Attention (MLA)?
MLA é a arquitetura de atenção introduzida pelo DeepSeek-V2 que comprime as matrizes de Key e Value em um espaço latente de dimensionalidade muito menor antes de armazená-las no cache. Durante a inferência, esses vetores comprimidos são projetados de volta para o espaço original quando necessário.
Em termos práticos: ao invés de cachear tensores de tamanho [num_heads, head_dim] para cada token, você cacheia um vetor latente muito menor e reconstrói sob demanda.
As duas inovações do MHA2MLA-VLM
1. Modality-Adaptive Partial-RoPE
RoPE (Rotary Position Embedding) é a codificação posicional usada em modelos como LLaMA e Qwen. O problema: nem todas as dimensões do RoPE são igualmente importantes para cada modalidade.
A técnica proposta analisa quais dimensões rotacionais são mais informativas para tokens visuais versus textuais, mascarando seletivamente as dimensões menos relevantes. Isso permite comprimir o espaço de posições sem perder informação crítica de localização.
2. Modality-Decoupled Low-Rank Approximation
Aqui está o insight central: os espaços de Key-Value para imagens e texto têm distribuições estatísticas diferentes. Comprimir ambos com a mesma matriz de projeção resulta em perda de informação subótima.
O paper demonstra matematicamente que:
"A perda mínima da compressão conjunta é maior ou igual à soma das perdas mínimas das compressões separadas."
Na prática, os pesquisadores mediram uma redução de até 35,85% na perda de truncamento nas camadas mais profundas ao separar as compressões por modalidade.
Como funciona a conversão
- Decomposição SVD: As matrizes de projeção K e V existentes são decompostas via SVD (Singular Value Decomposition)
- Truncamento por modalidade: Os componentes de baixo rank são selecionados separadamente para visual e texto
- Fine-tuning eficiente: Apenas ~10% dos parâmetros são ajustados, com objetivo de minimizar erro de ativação de saída (não distância de parâmetros)
- Integração: O modelo convertido aceita quantização adicional do KV cache (Int4) sem degradação significativa
O que muda na prática para engenheiros de IA
🚀 Performance
- Reduções de KV cache variam de 62,5% (LLaVA-1.5 conservador) a 94,64% (Qwen2.5-VL agressivo)
- Em benchmarks como AI2D, GQA, POPE e DocVQA, a performance permanece dentro de 1-3% do modelo original
- Combinável com quantização Int4 para reduções ainda maiores (90,63% + quantização)
💸 Custos
- Memória GPU drasticamente reduzida — essencial para serving em GPUs consumer ou múltiplos modelos em paralelo
- Tempo de treinamento para conversão: 9-22 horas dependendo do modelo (59% mais rápido que abordagens alternativas)
- Dados necessários: 0,5B a 1,8B tokens multimodais — ordens de magnitude menor que treinar do zero
🏗️ Arquitetura
- Compatível com modelos MHA (LLaVA-1.5) e GQA (LLaVA-NeXT, Qwen2.5-VL)
- Integração transparente com frameworks de quantização existentes (Quanto, HQQ)
- Não requer mudanças na arquitetura do visual encoder
🔐 Riscos
- Perda de performance é inevitável em taxas de compressão muito altas (>90%)
- Modelos com M-RoPE (como Qwen2.5-VL) requerem tratamento especial
- Necessário validar em benchmarks específicos do seu domínio
🧪 Maturidade
- Paper recente (janeiro 2026), sem código público confirmado ainda
- Baseado em técnicas bem estabelecidas (SVD, fine-tuning PEFT)
- Validado em três arquiteturas populares de VLM
Casos de uso reais e potenciais
Aplicações imediatas
Chatbots multimodais em produção: Se você serve um modelo como LLaVA para análise de imagens em escala, a redução de memória permite mais requisições concorrentes na mesma GPU ou migração para hardware mais barato.
Análise de documentos: VLMs aplicados a DocVQA e ChartQA se beneficiam especialmente, já que essas tarefas frequentemente envolvem contextos longos com múltiplas páginas.
Agentes de visão computacional: Agentes que processam streams de vídeo ou múltiplas capturas de tela podem operar com janelas de contexto maiores sem estourar memória.
Aplicações potenciais
Edge deployment: Com KV cache 94% menor, VLMs se tornam viáveis em dispositivos com memória limitada — smartphones high-end, robôs autônomos, sistemas embarcados.
Multi-modelo serving: Empresas que servem dezenas de modelos especializados podem consolidar infraestrutura, executando mais modelos por GPU.
Fine-tuning distribuído: A redução de memória durante forward pass libera espaço para batches maiores durante fine-tuning.
Limitações, riscos e pontos de atenção
Limitações técnicas
- Trade-off compressão vs qualidade: Taxas de compressão muito altas (>90%) mostram degradação mensurável, especialmente em tarefas que exigem raciocínio visual fino
- Validação limitada: Testado em 3 famílias de modelos — comportamento em outras arquiteturas (InternVL, Phi-Vision, etc.) ainda não validado
- Dependência de dados multimodais: O fine-tuning requer centenas de milhões de tokens multimodais de qualidade
Riscos de produção
- Reprodutibilidade: Paper recente sem implementação pública verificada no momento da publicação
- Interação com outras otimizações: Comportamento com continuous batching, speculative decoding e outras técnicas de serving não foi estudado
- Regressões em edge cases: Benchmarks agregados podem esconder degradação em casos de uso específicos
Hype vs realidade
A técnica é fundamentalmente sólida — MLA já provou seu valor nos modelos DeepSeek, e SVD/low-rank approximation são técnicas maduras. O risco principal é na engenharia de integração, não na teoria.
O que observar nos próximos meses
Liberação de código: Se os autores publicarem implementação de referência, espere adoção rápida pela comunidade — especialmente integração com frameworks como vLLM e TGI.
Extensão para mais modelos: A comunidade provavelmente tentará aplicar a técnica em modelos como InternVL-2, Phi-3-Vision e futuros lançamentos multimodais.
Padronização: Se múltiplos papers confirmarem os resultados, conversão MHA→MLA pode se tornar prática padrão para deployment de VLMs.
Integração nativa: Fabricantes de frameworks de serving (vLLM, TensorRT-LLM) podem incorporar conversão automática como feature.
A tendência de comprimir KV cache é clara e crescente. Este paper representa mais um passo importante na direção de VLMs economicamente viáveis em produção.
Conexão com aprendizado
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente, otimização de serving e técnicas de compressão de modelos — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Multi-Head Latent Attention, MLA, KV cache compression, vision-language models, VLM, LLaVA, Qwen-VL, DeepSeek, low-rank approximation, RoPE, inference optimization, parameter-efficient fine-tuning
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Trajectory2Task: novo pipeline de dados sintéticos promete agentes de IA mais robustos para cenários reais de uso de ferramentas
Novo paper propõe pipeline de geração de dados verificáveis para treinar agentes de tool-calling em cenários realistas....
FOCUS: novo sistema aumenta throughput de Diffusion LLMs em até 3,5x sem perder qualidade
Sistema FOCUS identifica que apenas fração dos tokens é decodificável a cada passo de difusão e propõe otimização que au...
VideoGPA: novo framework usa priors geométricos para vídeos 3D-consistentes via DPO
VideoGPA introduz uma abordagem data-efficient que usa sinais de preferência derivados de modelos geométricos para guiar...