AI ENGINEERING NEWS

#inference

Artigos sobre inference

9 artigos encontrados

TTARAG: novo método adapta modelos de linguagem em tempo real para melhorar RAG em domínios especializados

Papers·20 de janeiro de 2026

TTARAG: novo método adapta modelos de linguagem em tempo real para melhorar RAG em domínios especializados

TTARAG introduz adaptação em tempo de teste para sistemas RAG, atualizando dinamicamente os parâmetros do modelo durante...

Liquid AI lança LFM2.5-1.2B-Thinking: modelo de raciocínio com menos de 1GB que roda em qualquer celular

Mercado·20 de janeiro de 2026

Liquid AI lança LFM2.5-1.2B-Thinking: modelo de raciocínio com menos de 1GB que roda em qualquer celular

Liquid AI apresenta modelo de raciocínio com 1.2B de parâmetros que roda em 900MB de RAM. Arquitetura híbrida com convol...

FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção

Ferramentas·20 de janeiro de 2026

FlashInfer: a biblioteca de kernels GPU que está acelerando inferência de LLMs em produção

FlashInfer é uma biblioteca de kernels GPU de alta performance para serving de LLMs, com suporte a paged KV-cache, FP8/F...

Low-Rank KV Attention: novo método reduz cache KV pela metade e economiza até 25% de compute no pré-treino

Papers·20 de janeiro de 2026

Low-Rank KV Attention: novo método reduz cache KV pela metade e economiza até 25% de compute no pré-treino

LRKV usa projeção KV compartilhada com resíduos low-rank por head, reduzindo cache KV em ~50% e economizando até 25% de...

DeepSeek revela acidentalmente 'MODEL1' em código no GitHub — o que sabemos sobre o próximo modelo

Mercado·20 de janeiro de 2026

DeepSeek revela acidentalmente 'MODEL1' em código no GitHub — o que sabemos sobre o próximo modelo

Código atualizado no GitHub da DeepSeek revela suporte para um misterioso 'MODEL1' com arquitetura diferente dos modelos...

Differential Transformer V2: Microsoft simplifica arquitetura para produção com inferência mais rápida e treinamento estável

Tutoriais·20 de janeiro de 2026

Differential Transformer V2: Microsoft simplifica arquitetura para produção com inferência mais rápida e treinamento estável

Microsoft lança DIFF V2 com inferência equiparável ao Transformer padrão, sem kernels customizados, e promete 0.02-0.03...

DroPE: Sakana AI propõe remover embeddings posicionais para estender contexto de LLMs — análise para engenheiros

Papers·15 de janeiro de 2026

DroPE: Sakana AI propõe remover embeddings posicionais para estender contexto de LLMs — análise para engenheiros

Sakana AI apresenta DroPE, método que estende contexto de LLMs pré-treinados removendo embeddings posicionais — sem os c...

Test-Time Training: Nvidia propõe atualizar pesos do modelo em tempo real durante inferência

Papers·15 de janeiro de 2026

Test-Time Training: Nvidia propõe atualizar pesos do modelo em tempo real durante inferência

Pesquisadores da Nvidia apresentam TTT-E2E, método que permite modelos de linguagem atualizarem seus próprios pesos dura...

vLLM: o motor de inferência que está definindo o padrão para servir LLMs em produção

Ferramentas·14 de janeiro de 2026

vLLM: o motor de inferência que está definindo o padrão para servir LLMs em produção

Entenda como o vLLM revoluciona a inferência de LLMs com PagedAttention, suporte a múltiplas arquiteturas e throughput a...

Fique por dentro das novidades

Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.

Ao se inscrever, você concorda com nossa política de privacidade .