Open Responses: novo padrão aberto para inferência de agentes de IA — o que engenheiros precisam saber
A comunidade de AI Engineering ganhou uma nova especificação que promete simplificar drasticamente a forma como construímos agentes de IA: o Open Responses. Anunciado como uma extensão aberta da Responses API da OpenAI, o padrão foi desenvolvido colaborativamente pela comunidade open source com forte suporte do ecossistema Hugging Face.
Para engenheiros que trabalham com sistemas agenticos — pipelines que combinam LLMs, tool calling e reasoning em múltiplos passos — isso representa uma mudança significativa. Até agora, cada provider implementava suas próprias extensões não documentadas para suportar esses padrões. O Open Responses propõe um contrato comum.
O impacto é direto para quem desenvolve chatbots avançados, agentes autônomos, sistemas de RAG com ações, ou qualquer aplicação que precise orquestrar modelos de diferentes providers sem reescrever código.
O QUE FOI ANUNCIADO
A Hugging Face publicou em seu blog oficial um guia completo sobre o Open Responses, detalhando a especificação técnica e casos de uso. Os pontos principais:
- Origem: Iniciativa da OpenAI (Responses API lançada em março de 2025) que evoluiu para um padrão aberto mantido pela comunidade
- Objetivo: Criar um formato de inferência interoperável otimizado para workloads agenticos
- Suporte atual: Disponível através dos Hugging Face Inference Providers, com demo funcional em Hugging Face Spaces
- Especificação completa: Documentada em openresponses.org
O padrão já está sendo testado com modelos como moonshotai/Kimi-K2-Thinking (via Nebius e Together) e zai-org/GLM-4.7.
VISÃO TÉCNICA SIMPLIFICADA
Por que um novo padrão?
O formato Chat Completion (usado por OpenAI, Anthropic, e praticamente todos os providers) foi desenhado para conversas turn-based. Quando você precisa de:
- Reasoning em múltiplos passos com visibilidade do processo
- Tool calling com loops autônomos
- Estado intermediário durante execuções longas
- Orquestração entre múltiplos providers
...cada provider implementava extensões próprias, quebrando portabilidade.
Arquitetura do Open Responses
O padrão introduz três conceitos fundamentais:
1. Reasoning como cidadão de primeira classe
Três campos opcionais padronizados:
content: Traces de reasoning brutosencrypted_content: Conteúdo protegido (provider-specific)summary: Resumo sanitizado do reasoning
Isso permite que modelos open-weight exponham o reasoning completo, enquanto modelos proprietários enviam apenas summaries.
2. Streaming semântico
Ao invés de deltas de texto bruto, eventos semânticos:
event: response.reasoning.delta
data: { "delta": "Step 1: Parse location..." }
event: response.reasoning_summary_text.delta
data: { "delta": "Determined user wants restaurant recommendations" }
3. Distinção Provider vs Router
O padrão diferencia:
- Model Providers: Fornecem inferência direta
- Routers: Intermediários que orquestram entre múltiplos providers
Isso permite configurações específicas por provider em uma única request.
Tool Calling Padronizado
Duas categorias nativas:
| Tipo | Descrição | Exemplo |
|---|---|---|
| Internal Tools | Executados pelo provider | File search, integração Google Drive |
| External Tools | Executados pelo cliente | Funções locais, MCP servers |
Loops Agenticos Nativos
O diferencial mais significativo: sub-agent loops executados server-side.
{
"model": "zai-org/GLM-4.7",
"input": "Find Q3 sales data and email a summary to the team",
"tools": [...],
"max_tool_calls": 5,
"tool_choice": "auto"
}
O fluxo:
- API recebe request e faz sampling do modelo
- Se modelo emite tool call, API executa (internal ou external)
- Resultado volta para o modelo continuar reasoning
- Loop repete até modelo sinalizar completion
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🏗️ Arquitetura
- Código de orquestração de agentes pode ser drasticamente simplificado
- Loops que antes eram implementados client-side podem rodar server-side
- Portabilidade real entre providers sem adapters complexos
🚀 Performance
- Streaming semântico reduz latência percebida em workflows longos
- Server-side loops eliminam round-trips desnecessários
- Estados intermediários (
interpreting, etc.) melhoram UX durante operações longas
💸 Custos
- Menos código de glue = menos manutenção
- Potencial para otimização de routing entre providers baseado em custo/performance
- Padronização facilita benchmarking e comparação de providers
🔐 Riscos
- Dependência de adoção pelos principais providers
- Extensões provider-specific ainda podem fragmentar o ecossistema
encrypted_contentcria opacidade em debugging
🧪 Maturidade
- Especificação ainda em estabilização
- Demo funcional disponível, mas produção requer avaliação
- Compliance testing tool disponível para validar implementações
CASOS DE USO REAIS E POTENCIAIS
Agentes de pesquisa autônomos Um único request que: busca em documentos → sumariza findings → envia email. Todo o loop gerenciado pelo provider.
Orquestradores multi-modelo Routers que direcionam requests para diferentes providers baseado em custo, latência ou capabilities, mantendo interface consistente.
Chatbots empresariais com ações Assistentes que executam operações em sistemas internos (CRM, ERP) com visibilidade completa do reasoning para auditoria.
Pipelines de análise de dados Agentes que interpretam queries, executam código (via Code Interpreter), e iteram sobre resultados até encontrar insights.
Sistemas de RAG com ações RAG que não apenas recupera informação, mas executa ações baseadas no contexto recuperado.
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Adoção fragmentada O sucesso depende de providers adotarem a especificação. Se OpenAI, Anthropic e Google não alinharem, teremos mais um padrão competindo.
Complexidade de migração Sistemas existentes baseados em Chat Completion precisarão de refatoração significativa para aproveitar os benefícios.
Debugging opaco
O campo encrypted_content para reasoning proprietário dificulta debugging quando modelos não expõem traces completos.
Segurança em loops autônomos
max_tool_calls ajuda, mas loops server-side com external tools criam vetores de ataque se não configurados cuidadosamente.
Hype vs realidade O padrão promete muito, mas implementações production-ready ainda são escassas. Demo ≠ produção.
O QUE OBSERVAR NOS PRÓXIMOS MESES
- Adoção por players principais: Se Anthropic e Google adotarem, o padrão tem futuro. Se não, será mais um standard fragmentado.
- Evolução da spec: A especificação está em
latest— mudanças breaking são possíveis. - Ferramentas de compliance: O Compliance Tool da Hugging Face será crucial para garantir interoperabilidade real.
- Integração com frameworks: LangChain, LlamaIndex e similares precisarão de adapters nativos.
- MCP + Open Responses: A combinação com Model Context Protocol pode criar um stack completo para agentes.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência eficiente, RAG e agentes — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Open Responses, Responses API, agentes de IA, tool calling, reasoning, LLM inference, Hugging Face, OpenAI, agentic workflows, streaming semântico
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention
LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...
MaliciousCorgi: extensões de IA populares vazaram código de 1,5 milhão de desenvolvedores
Duas extensões de IA para VS Code com 1,5 milhão de instalações continham código malicioso idêntico que exfiltrava arqui...
Graph Neural Networks para previsão de demanda: por que séries temporais sozinhas não bastam
Previsão de demanda tradicionalmente trata cada SKU isoladamente. Graph Neural Networks mudam isso ao capturar relações...