MHA2MLA-VLM: como converter modelos de visão-linguagem para a arquitetura de atenção eficiente do DeepSeek

Se você trabalha com modelos de visão-linguagem (VLMs) em produção, sabe que o KV cache é um dos maiores gargalos de memória e latência durante a inferência. Agora, uma nova pesquisa propõe uma solução elegante: converter VLMs existentes para usar a arquitetura Multi-Head Latent Attention (MLA) — a mesma técnica que tornou os modelos DeepSeek-V2 e V3 famosos por sua eficiência.

O paper MHA2MLA-VLM apresenta um framework que permite essa conversão sem o custo proibitivo de retreinar modelos do zero. Em testes com LLaVA-1.5, LLaVA-NeXT e Qwen2.5-VL, os pesquisadores demonstraram reduções de até 94,64% no KV cache mantendo performance comparável ao modelo original.

Para engenheiros de IA que servem VLMs em escala, isso significa: menos memória GPU, menor latência e custos operacionais reduzidos — sem sacrificar a qualidade das respostas.

O que foi publicado

O paper foi publicado no arXiv em 16 de janeiro de 2026, por pesquisadores das universidades chinesas, incluindo Xiaoran Fan, Zhichao Sun, Tao Ji, Lixing Shen e Tao Gui.

O problema atacado: VLMs modernos como LLaVA e Qwen processam imagens e texto simultaneamente, gerando KV caches massivos que crescem linearmente com o comprimento da sequência. Em tarefas complexas com múltiplas imagens ou contextos longos, isso rapidamente esgota a memória GPU disponível.

A proposta: Um framework chamado MHA2MLA-VLM que converte modelos existentes (treinados com Multi-Head Attention ou Grouped-Query Attention) para a arquitetura MLA, comprimindo o KV cache em vetores latentes de baixa dimensionalidade.

Diferencial: O trabalho estende pesquisas anteriores (MHA2MLA para LLMs) para o domínio multimodal, introduzindo técnicas específicas para lidar com tokens visuais e textuais de forma diferenciada.

Visão técnica simplificada

O que é Multi-Head Latent Attention (MLA)?

MLA é a arquitetura de atenção introduzida pelo DeepSeek-V2 que comprime as matrizes de Key e Value em um espaço latente de dimensionalidade muito menor antes de armazená-las no cache. Durante a inferência, esses vetores comprimidos são projetados de volta para o espaço original quando necessário.

Em termos práticos: ao invés de cachear tensores de tamanho [num_heads, head_dim] para cada token, você cacheia um vetor latente muito menor e reconstrói sob demanda.

As duas inovações do MHA2MLA-VLM

1. Modality-Adaptive Partial-RoPE

RoPE (Rotary Position Embedding) é a codificação posicional usada em modelos como LLaMA e Qwen. O problema: nem todas as dimensões do RoPE são igualmente importantes para cada modalidade.

A técnica proposta analisa quais dimensões rotacionais são mais informativas para tokens visuais versus textuais, mascarando seletivamente as dimensões menos relevantes. Isso permite comprimir o espaço de posições sem perder informação crítica de localização.

2. Modality-Decoupled Low-Rank Approximation

Aqui está o insight central: os espaços de Key-Value para imagens e texto têm distribuições estatísticas diferentes. Comprimir ambos com a mesma matriz de projeção resulta em perda de informação subótima.

O paper demonstra matematicamente que:

"A perda mínima da compressão conjunta é maior ou igual à soma das perdas mínimas das compressões separadas."

Na prática, os pesquisadores mediram uma redução de até 35,85% na perda de truncamento nas camadas mais profundas ao separar as compressões por modalidade.

Como funciona a conversão

Decomposição SVD: As matrizes de projeção K e V existentes são decompostas via SVD (Singular Value Decomposition)
Truncamento por modalidade: Os componentes de baixo rank são selecionados separadamente para visual e texto
Fine-tuning eficiente: Apenas ~10% dos parâmetros são ajustados, com objetivo de minimizar erro de ativação de saída (não distância de parâmetros)
Integração: O modelo convertido aceita quantização adicional do KV cache (Int4) sem degradação significativa

O que muda na prática para engenheiros de IA

🚀 Performance

Reduções de KV cache variam de 62,5% (LLaVA-1.5 conservador) a 94,64% (Qwen2.5-VL agressivo)
Em benchmarks como AI2D, GQA, POPE e DocVQA, a performance permanece dentro de 1-3% do modelo original
Combinável com quantização Int4 para reduções ainda maiores (90,63% + quantização)

💸 Custos

Memória GPU drasticamente reduzida — essencial para serving em GPUs consumer ou múltiplos modelos em paralelo
Tempo de treinamento para conversão: 9-22 horas dependendo do modelo (59% mais rápido que abordagens alternativas)
Dados necessários: 0,5B a 1,8B tokens multimodais — ordens de magnitude menor que treinar do zero

🏗️ Arquitetura

Compatível com modelos MHA (LLaVA-1.5) e GQA (LLaVA-NeXT, Qwen2.5-VL)
Integração transparente com frameworks de quantização existentes (Quanto, HQQ)
Não requer mudanças na arquitetura do visual encoder

🔐 Riscos

Perda de performance é inevitável em taxas de compressão muito altas (>90%)
Modelos com M-RoPE (como Qwen2.5-VL) requerem tratamento especial
Necessário validar em benchmarks específicos do seu domínio

🧪 Maturidade

Paper recente (janeiro 2026), sem código público confirmado ainda
Baseado em técnicas bem estabelecidas (SVD, fine-tuning PEFT)
Validado em três arquiteturas populares de VLM

Casos de uso reais e potenciais

Aplicações imediatas

Chatbots multimodais em produção: Se você serve um modelo como LLaVA para análise de imagens em escala, a redução de memória permite mais requisições concorrentes na mesma GPU ou migração para hardware mais barato.

Análise de documentos: VLMs aplicados a DocVQA e ChartQA se beneficiam especialmente, já que essas tarefas frequentemente envolvem contextos longos com múltiplas páginas.

Agentes de visão computacional: Agentes que processam streams de vídeo ou múltiplas capturas de tela podem operar com janelas de contexto maiores sem estourar memória.

Aplicações potenciais

Edge deployment: Com KV cache 94% menor, VLMs se tornam viáveis em dispositivos com memória limitada — smartphones high-end, robôs autônomos, sistemas embarcados.

Multi-modelo serving: Empresas que servem dezenas de modelos especializados podem consolidar infraestrutura, executando mais modelos por GPU.

Fine-tuning distribuído: A redução de memória durante forward pass libera espaço para batches maiores durante fine-tuning.

Limitações, riscos e pontos de atenção

Limitações técnicas

Trade-off compressão vs qualidade: Taxas de compressão muito altas (>90%) mostram degradação mensurável, especialmente em tarefas que exigem raciocínio visual fino
Validação limitada: Testado em 3 famílias de modelos — comportamento em outras arquiteturas (InternVL, Phi-Vision, etc.) ainda não validado
Dependência de dados multimodais: O fine-tuning requer centenas de milhões de tokens multimodais de qualidade

Riscos de produção

Reprodutibilidade: Paper recente sem implementação pública verificada no momento da publicação
Interação com outras otimizações: Comportamento com continuous batching, speculative decoding e outras técnicas de serving não foi estudado
Regressões em edge cases: Benchmarks agregados podem esconder degradação em casos de uso específicos

Hype vs realidade

A técnica é fundamentalmente sólida — MLA já provou seu valor nos modelos DeepSeek, e SVD/low-rank approximation são técnicas maduras. O risco principal é na engenharia de integração, não na teoria.

O que observar nos próximos meses

Liberação de código: Se os autores publicarem implementação de referência, espere adoção rápida pela comunidade — especialmente integração com frameworks como vLLM e TGI.

Extensão para mais modelos: A comunidade provavelmente tentará aplicar a técnica em modelos como InternVL-2, Phi-3-Vision e futuros lançamentos multimodais.

Padronização: Se múltiplos papers confirmarem os resultados, conversão MHA→MLA pode se tornar prática padrão para deployment de VLMs.

Integração nativa: Fabricantes de frameworks de serving (vLLM, TensorRT-LLM) podem incorporar conversão automática como feature.

A tendência de comprimir KV cache é clara e crescente. Este paper representa mais um passo importante na direção de VLMs economicamente viáveis em produção.

Conexão com aprendizado

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente, otimização de serving e técnicas de compressão de modelos — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: Multi-Head Latent Attention, MLA, KV cache compression, vision-language models, VLM, LLaVA, Qwen-VL, DeepSeek, low-rank approximation, RoPE, inference optimization, parameter-efficient fine-tuning