AI ENGINEERING NEWS

#multimodal

Artigos sobre multimodal

13 artigos encontrados

Amazon Bedrock Knowledge Bases agora suporta retrieval multimodal: busca unificada em texto, imagem, áudio e vídeo

Tutoriais·20 de janeiro de 2026

Amazon Bedrock Knowledge Bases agora suporta retrieval multimodal: busca unificada em texto, imagem, áudio e vídeo

AWS anuncia disponibilidade geral de retrieval multimodal para Bedrock Knowledge Bases, unificando busca em texto, image...

vLLM-MLX: inferência LLM nativa em Apple Silicon atinge 464 tok/s no M4 Max

Ferramentas·20 de janeiro de 2026

vLLM-MLX: inferência LLM nativa em Apple Silicon atinge 464 tok/s no M4 Max

vLLM-MLX permite rodar LLMs, modelos de visão, áudio e TTS nativamente em Macs com Apple Silicon, alcançando 464 tok/s n...

MHA2MLA-VLM: como converter modelos de visão-linguagem para a arquitetura de atenção eficiente do DeepSeek

Papers·20 de janeiro de 2026

MHA2MLA-VLM: como converter modelos de visão-linguagem para a arquitetura de atenção eficiente do DeepSeek

Pesquisadores propõem framework para converter VLMs existentes para Multi-Head Latent Attention, reduzindo até 94% do KV...

Argos: Microsoft Research apresenta framework que reduz alucinações visuais em agentes de IA multimodais

Papers·20 de janeiro de 2026

Argos: Microsoft Research apresenta framework que reduz alucinações visuais em agentes de IA multimodais

Microsoft Research lança Argos, framework que treina agentes multimodais verificando se o raciocínio está ancorado em ev...

O que faz um bom tokenizador de fala para LLMs? Estudo sistemático revela arquiteturas ideais e acelera decodificação em 12x

Papers·20 de janeiro de 2026

O que faz um bom tokenizador de fala para LLMs? Estudo sistemático revela arquiteturas ideais e acelera decodificação em 12x

Novo estudo compara tokenizadores coupled, semi-decoupled e decoupled para speech-language models, mostrando que arquite...

Banana-Slides: gerador de PPT com IA que usa Nano Banana Pro do Google para criar apresentações por comando de voz

Ferramentas·20 de janeiro de 2026

Banana-Slides: gerador de PPT com IA que usa Nano Banana Pro do Google para criar apresentações por comando de voz

Banana-Slides é um gerador de apresentações baseado no Nano Banana Pro do Google que permite criar PPTs completos a part...

LiteEmbed: nova técnica permite adaptar CLIP para classes raras sem retreinar o modelo

Papers·15 de janeiro de 2026

LiteEmbed: nova técnica permite adaptar CLIP para classes raras sem retreinar o modelo

Pesquisadores propõem LiteEmbed, um método que adapta CLIP para reconhecer classes raras ou culturalmente específicas at...

Step-Audio-R1.1: modelo open source de áudio com raciocínio supera GPT, Gemini e Grok em benchmark

Ferramentas·15 de janeiro de 2026

Step-Audio-R1.1: modelo open source de áudio com raciocínio supera GPT, Gemini e Grok em benchmark

StepFun lança Step-Audio-R1.1 open source com 33B parâmetros que bate GPT-Realtime, Gemini e Grok em raciocínio de áudio...

STEP3-VL-10B: Modelo open-source de 10B supera gigantes de 100B+ em raciocínio visual — o que engenheiros de IA precisam saber

Papers·15 de janeiro de 2026

STEP3-VL-10B: Modelo open-source de 10B supera gigantes de 100B+ em raciocínio visual — o que engenheiros de IA precisam saber

STEP3-VL-10B alcança 92.2% no MMBench e 80.11% no MMMU com apenas 10B de parâmetros, superando modelos como GLM-4.6V-106...

ScreenAI: modelo do Google entende interfaces e infográficos com apenas 5B de parâmetros

Papers·15 de janeiro de 2026

ScreenAI: modelo do Google entende interfaces e infográficos com apenas 5B de parâmetros

Google apresenta ScreenAI, modelo de 5B parâmetros que combina PaLI com pix2struct para entender interfaces, gráficos e...

Mistral lança Ministral 3: modelos compactos com destilação em cascata e licença Apache 2.0

Ferramentas·15 de janeiro de 2026

Mistral lança Ministral 3: modelos compactos com destilação em cascata e licença Apache 2.0

Mistral apresenta Ministral 3, família de modelos de 3B, 8B e 14B parâmetros usando Cascade Distillation. Inclui variant...

GLM-Image: novo modelo híbrido combina arquitetura autoregressiva com difusão para geração de imagens

Ferramentas·14 de janeiro de 2026

GLM-Image: novo modelo híbrido combina arquitetura autoregressiva com difusão para geração de imagens

GLM-Image adota arquitetura híbrida autoregressiva + difusão, com destaque para renderização precisa de texto em imagens...

Veo 3.1 do Google DeepMind: novo modelo de geração de vídeo traz controle por ingredientes e suporte a vídeo vertical

Mercado·14 de janeiro de 2026

Veo 3.1 do Google DeepMind: novo modelo de geração de vídeo traz controle por ingredientes e suporte a vídeo vertical

Google DeepMind lança Veo 3.1 com recurso 'Ingredients to Video' para maior controle na geração de vídeos, incluindo sup...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .