Banana-Slides: gerador de PPT com IA que usa Nano Banana Pro do Google para criar apresentações por comando de voz
Um projeto open-source chamado Banana-Slides está ganhando tração acelerada no GitHub, ultrapassando 10 mil stars em menos de dois meses. A ferramenta promete revolucionar a criação de apresentações ao integrar o modelo Nano Banana Pro do Google DeepMind — o mesmo que impulsiona a geração de imagens no Gemini 3 Pro.
O que torna este projeto relevante é a convergência de três tendências: geração de imagens com texto renderizado corretamente, interfaces de linguagem natural para edição de documentos, e a busca por ferramentas de produtividade que eliminem o trabalho manual de design. Para engenheiros que constroem sistemas de IA, este é um caso de estudo de como modelos multimodais estão sendo integrados em aplicações práticas.
O impacto atinge diretamente profissionais que trabalham com automação de documentos, chatbots empresariais, e qualquer sistema que precise gerar artefatos visuais estruturados a partir de texto.
O QUE FOI PUBLICADO
O repositório Banana-Slides foi criado pelo desenvolvedor Anionex em 29 de novembro de 2025 e está hospedado no GitHub sob uma licença personalizada. Em janeiro de 2026, o projeto já acumula:
- 10.001 stars no GitHub
- 1.108 forks
- Atividade contínua com último push em 20 de janeiro de 2026
- Stack: Python (backend) + React/TypeScript (frontend)
Problema que resolve
Criar apresentações profissionais é um processo que consome tempo desproporcional ao valor entregue. Designers gastam horas ajustando layouts, e profissionais técnicos frequentemente entregam slides visualmente pobres por falta de habilidade ou tempo.
Proposta
Um sistema "AI-native" que gera PPTs completos a partir de:
- Uma única frase descrevendo o tema
- Um outline estruturado
- Descrições página a página
A diferença central é a capacidade de edição por linguagem natural: o usuário seleciona uma região do slide e diz "substitua isso por um gráfico de pizza" ou "mude a cor de fundo para azul corporativo".
VISÃO TÉCNICA SIMPLIFICADA
Arquitetura do Sistema
O Banana-Slides segue uma arquitetura cliente-servidor clássica, mas com um pipeline de IA sofisticado no backend:
[Frontend React] → [API FastAPI] → [Orquestrador de Prompts] → [Nano Banana Pro API]
↓
[Parser de Materiais]
↓
[Gerador de Layout]
↓
[Exportador PPTX]
O que é o Nano Banana Pro?
O Nano Banana Pro (oficialmente Gemini 3 Pro Image) é o modelo de geração de imagens do Google DeepMind lançado em novembro de 2025. Sua característica diferenciadora é a capacidade de renderizar texto corretamente dentro de imagens — um problema histórico de modelos como DALL-E e Stable Diffusion.
Isso é crítico para apresentações porque:
- Títulos e subtítulos precisam ser legíveis
- Infográficos dependem de labels alinhados
- Gráficos precisam de legendas corretas
Como funciona a geração
Input Processing: O sistema aceita PDF, DOCX, Markdown ou texto puro. Um parser extrai pontos-chave, identifica imagens e analisa gráficos existentes.
Prompt Engineering: O orquestrador transforma o input do usuário em prompts estruturados para o Nano Banana Pro, incluindo contexto de design e restrições de layout.
Geração Iterativa: Cada slide é gerado como uma imagem completa, com texto renderizado nativamente pelo modelo.
Pós-processamento: O sistema converte as imagens em elementos editáveis através de OCR (usando Baidu OCR API) e reconhecimento de estrutura.
Integração com múltiplos providers
O projeto foi desenhado para ser agnóstico de provider. Suporta:
- Google Gemini (padrão)
- OpenAI-compatible endpoints
- Google Cloud Vertex AI
- Qualquer API no formato AIHubMix
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance: A geração de um deck de 10 slides leva aproximadamente 2-3 minutos, dependendo da complexidade e do provider escolhido. O gargalo é a API do Nano Banana Pro, não o processamento local.
💸 Custos: Utilizar o Gemini API tem custo por token/imagem gerada. Para uso intensivo, os custos podem escalar rapidamente. A arquitetura multi-provider permite otimizar custos usando modelos mais baratos para iterações iniciais.
🏗️ Arquitetura: O padrão de orquestração de prompts com múltiplos providers é replicável. Engenheiros podem estudar como o projeto abstrai diferentes APIs em uma interface unificada.
🔐 Riscos: Dependência de APIs externas significa que outages do Google afetam diretamente a aplicação. Não há modo offline. Dados enviados para as APIs podem incluir informações sensíveis de documentos corporativos.
🧪 Maturidade: Projeto em estágio inicial (menos de 2 meses). A funcionalidade de exportação PPTX editável está em beta. Espere bugs e breaking changes.
CASOS DE USO REAIS E POTENCIAIS
Aplicações imediatas
- Consultores e analistas: Transformar relatórios em apresentações executivas em minutos
- Educadores: Criar material didático a partir de notas de aula
- Startups: Gerar pitch decks iterativamente com feedback em linguagem natural
- Marketing: Produzir apresentações de produto com consistência visual
Integrações potenciais
- Chatbots empresariais: Adicionar capacidade de gerar apresentações como output de conversas
- Sistemas de BI: Transformar dashboards em decks executivos automaticamente
- Pipelines de documentação: Gerar apresentações a partir de changelogs ou release notes
- Agentes autônomos: Incluir geração de slides como uma "tool" disponível para agentes de IA
Extensões de produto
O conceito de "Vibe PPT" — onde o usuário descreve o "clima" desejado e a IA interpreta — abre espaço para:
- Templates adaptativos por indústria
- Geração de apresentações a partir de transcrições de reuniões
- Slides dinâmicos que se adaptam ao público detectado
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações técnicas
- Qualidade inconsistente: Modelos generativos ainda produzem resultados variáveis. Slides podem precisar de ajustes manuais.
- Exportação PPTX limitada: A funcionalidade de exportar PPT editável está em beta. Estilos complexos podem não ser preservados.
- Dependência de OCR: A conversão de imagens para elementos editáveis depende de OCR, que pode falhar com fontes estilizadas.
Dependências críticas
- Nano Banana Pro API: Toda a geração depende da disponibilidade e pricing do Google
- Baidu OCR: Para reconhecimento de texto, há dependência de serviço chinês que pode ter restrições de acesso
Riscos de produção
- Dados sensíveis: Documentos corporativos enviados para APIs externas. Considere implications de compliance (LGPD, GDPR)
- Rate limits: Uso intensivo pode esbarrar em limites das APIs
- Custos imprevisíveis: Sem caching agressivo, cada regeneração gera custos
Hype vs realidade
O conceito de "Vibe PPT" é atraente, mas a realidade atual é mais prosaica: você ainda precisará iterar múltiplas vezes e fazer ajustes manuais. Não espere perfeição no primeiro prompt.
O QUE OBSERVAR NOS PRÓXIMOS MESES
Evolução do Nano Banana Pro: O Google está iterando rapidamente. Melhorias no modelo upstream beneficiarão automaticamente projetos como este.
Competição open-source: O lançamento do GLM-Image pela Z.ai como alternativa open-source ao Nano Banana Pro pode inspirar forks do Banana-Slides que não dependam de APIs proprietárias.
Integração oficial do Google: Com o Nano Banana Pro já disponível no Google Slides via Gemini sidebar, há risco de canibalização do projeto se o Google oferecer funcionalidades similares nativamente.
Padronização de APIs: O formato AIHubMix usado pelo projeto pode se tornar um padrão de facto para orquestração de múltiplos providers de IA generativa.
Adoção empresarial: Se o projeto demonstrar ROI claro, é provável que surjam versões enterprise com suporte, compliance e SLAs.
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que orquestram múltiplos modelos de IA, integram APIs de geração de imagens com processamento de documentos, e constroem interfaces de linguagem natural para edição — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: Nano Banana Pro, Gemini 3 Pro Image, gerador de PPT com IA, text-to-image, Google DeepMind, apresentações automatizadas, LLM multimodal, Python FastAPI, React TypeScript, exportação PPTX
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Browser-Use: o framework open source que transforma qualquer site em API para agentes de IA
Browser-Use é um framework Python que permite a agentes de IA navegar, interagir e extrair dados de qualquer website atr...
Step-3.5-Flash-int4: o novo rei dos LLMs locais para dispositivos com 128GB de RAM
O Step-3.5-Flash-Int4 da Stepfun AI permite rodar um modelo de 197B parâmetros localmente com 256k de contexto, oferecen...
Mem0: A camada de memória universal para agentes de IA que pode reduzir 90% dos custos com tokens
Mem0 é uma biblioteca open-source que adiciona memória de longo prazo a agentes de IA, prometendo 91% menos latência e 9...