Banana-Slides: gerador de PPT com IA que usa Nano Banana Pro do Google para criar apresentações por comando de voz

Um projeto open-source chamado Banana-Slides está ganhando tração acelerada no GitHub, ultrapassando 10 mil stars em menos de dois meses. A ferramenta promete revolucionar a criação de apresentações ao integrar o modelo Nano Banana Pro do Google DeepMind — o mesmo que impulsiona a geração de imagens no Gemini 3 Pro.

O que torna este projeto relevante é a convergência de três tendências: geração de imagens com texto renderizado corretamente, interfaces de linguagem natural para edição de documentos, e a busca por ferramentas de produtividade que eliminem o trabalho manual de design. Para engenheiros que constroem sistemas de IA, este é um caso de estudo de como modelos multimodais estão sendo integrados em aplicações práticas.

O impacto atinge diretamente profissionais que trabalham com automação de documentos, chatbots empresariais, e qualquer sistema que precise gerar artefatos visuais estruturados a partir de texto.

O QUE FOI PUBLICADO

O repositório Banana-Slides foi criado pelo desenvolvedor Anionex em 29 de novembro de 2025 e está hospedado no GitHub sob uma licença personalizada. Em janeiro de 2026, o projeto já acumula:

10.001 stars no GitHub
1.108 forks
Atividade contínua com último push em 20 de janeiro de 2026
Stack: Python (backend) + React/TypeScript (frontend)

Problema que resolve

Criar apresentações profissionais é um processo que consome tempo desproporcional ao valor entregue. Designers gastam horas ajustando layouts, e profissionais técnicos frequentemente entregam slides visualmente pobres por falta de habilidade ou tempo.

Proposta

Um sistema "AI-native" que gera PPTs completos a partir de:

Uma única frase descrevendo o tema
Um outline estruturado
Descrições página a página

A diferença central é a capacidade de edição por linguagem natural: o usuário seleciona uma região do slide e diz "substitua isso por um gráfico de pizza" ou "mude a cor de fundo para azul corporativo".

VISÃO TÉCNICA SIMPLIFICADA

Arquitetura do Sistema

O Banana-Slides segue uma arquitetura cliente-servidor clássica, mas com um pipeline de IA sofisticado no backend:

[Frontend React] → [API FastAPI] → [Orquestrador de Prompts] → [Nano Banana Pro API]
                                   ↓
                            [Parser de Materiais]
                                   ↓
                            [Gerador de Layout]
                                   ↓
                            [Exportador PPTX]

O que é o Nano Banana Pro?

O Nano Banana Pro (oficialmente Gemini 3 Pro Image) é o modelo de geração de imagens do Google DeepMind lançado em novembro de 2025. Sua característica diferenciadora é a capacidade de renderizar texto corretamente dentro de imagens — um problema histórico de modelos como DALL-E e Stable Diffusion.

Isso é crítico para apresentações porque:

Títulos e subtítulos precisam ser legíveis
Infográficos dependem de labels alinhados
Gráficos precisam de legendas corretas

Como funciona a geração

Input Processing: O sistema aceita PDF, DOCX, Markdown ou texto puro. Um parser extrai pontos-chave, identifica imagens e analisa gráficos existentes.
Prompt Engineering: O orquestrador transforma o input do usuário em prompts estruturados para o Nano Banana Pro, incluindo contexto de design e restrições de layout.
Geração Iterativa: Cada slide é gerado como uma imagem completa, com texto renderizado nativamente pelo modelo.
Pós-processamento: O sistema converte as imagens em elementos editáveis através de OCR (usando Baidu OCR API) e reconhecimento de estrutura.

Integração com múltiplos providers

O projeto foi desenhado para ser agnóstico de provider. Suporta:

Google Gemini (padrão)
OpenAI-compatible endpoints
Google Cloud Vertex AI
Qualquer API no formato AIHubMix

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance: A geração de um deck de 10 slides leva aproximadamente 2-3 minutos, dependendo da complexidade e do provider escolhido. O gargalo é a API do Nano Banana Pro, não o processamento local.

💸 Custos: Utilizar o Gemini API tem custo por token/imagem gerada. Para uso intensivo, os custos podem escalar rapidamente. A arquitetura multi-provider permite otimizar custos usando modelos mais baratos para iterações iniciais.

🏗️ Arquitetura: O padrão de orquestração de prompts com múltiplos providers é replicável. Engenheiros podem estudar como o projeto abstrai diferentes APIs em uma interface unificada.

🔐 Riscos: Dependência de APIs externas significa que outages do Google afetam diretamente a aplicação. Não há modo offline. Dados enviados para as APIs podem incluir informações sensíveis de documentos corporativos.

🧪 Maturidade: Projeto em estágio inicial (menos de 2 meses). A funcionalidade de exportação PPTX editável está em beta. Espere bugs e breaking changes.

CASOS DE USO REAIS E POTENCIAIS

Aplicações imediatas

Consultores e analistas: Transformar relatórios em apresentações executivas em minutos
Educadores: Criar material didático a partir de notas de aula
Startups: Gerar pitch decks iterativamente com feedback em linguagem natural
Marketing: Produzir apresentações de produto com consistência visual

Integrações potenciais

Chatbots empresariais: Adicionar capacidade de gerar apresentações como output de conversas
Sistemas de BI: Transformar dashboards em decks executivos automaticamente
Pipelines de documentação: Gerar apresentações a partir de changelogs ou release notes
Agentes autônomos: Incluir geração de slides como uma "tool" disponível para agentes de IA

Extensões de produto

O conceito de "Vibe PPT" — onde o usuário descreve o "clima" desejado e a IA interpreta — abre espaço para:

Templates adaptativos por indústria
Geração de apresentações a partir de transcrições de reuniões
Slides dinâmicos que se adaptam ao público detectado

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações técnicas

Qualidade inconsistente: Modelos generativos ainda produzem resultados variáveis. Slides podem precisar de ajustes manuais.
Exportação PPTX limitada: A funcionalidade de exportar PPT editável está em beta. Estilos complexos podem não ser preservados.
Dependência de OCR: A conversão de imagens para elementos editáveis depende de OCR, que pode falhar com fontes estilizadas.

Dependências críticas

Nano Banana Pro API: Toda a geração depende da disponibilidade e pricing do Google
Baidu OCR: Para reconhecimento de texto, há dependência de serviço chinês que pode ter restrições de acesso

Riscos de produção

Dados sensíveis: Documentos corporativos enviados para APIs externas. Considere implications de compliance (LGPD, GDPR)
Rate limits: Uso intensivo pode esbarrar em limites das APIs
Custos imprevisíveis: Sem caching agressivo, cada regeneração gera custos

Hype vs realidade

O conceito de "Vibe PPT" é atraente, mas a realidade atual é mais prosaica: você ainda precisará iterar múltiplas vezes e fazer ajustes manuais. Não espere perfeição no primeiro prompt.

O QUE OBSERVAR NOS PRÓXIMOS MESES

Evolução do Nano Banana Pro: O Google está iterando rapidamente. Melhorias no modelo upstream beneficiarão automaticamente projetos como este.

Competição open-source: O lançamento do GLM-Image pela Z.ai como alternativa open-source ao Nano Banana Pro pode inspirar forks do Banana-Slides que não dependam de APIs proprietárias.

Integração oficial do Google: Com o Nano Banana Pro já disponível no Google Slides via Gemini sidebar, há risco de canibalização do projeto se o Google oferecer funcionalidades similares nativamente.

Padronização de APIs: O formato AIHubMix usado pelo projeto pode se tornar um padrão de facto para orquestração de múltiplos providers de IA generativa.

Adoção empresarial: Se o projeto demonstrar ROI claro, é provável que surjam versões enterprise com suporte, compliance e SLAs.

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que orquestram múltiplos modelos de IA, integram APIs de geração de imagens com processamento de documentos, e constroem interfaces de linguagem natural para edição — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: Nano Banana Pro, Gemini 3 Pro Image, gerador de PPT com IA, text-to-image, Google DeepMind, apresentações automatizadas, LLM multimodal, Python FastAPI, React TypeScript, exportação PPTX