LongPage: dataset com mais de 6 mil romances e traces de raciocínio para treinar LLMs de escrita longa
A comunidade de IA open-source acaba de ganhar um recurso significativo para quem trabalha com geração de texto longo: o dataset LongPage foi atualizado para incluir mais de 6 mil romances completos, cada um acompanhado de traces de raciocínio hierárquico que decompõem a narrativa desde o outline geral até cenas individuais.
Para engenheiros de IA que trabalham com geração de conteúdo criativo, isso representa uma mudança importante. Até agora, treinar modelos para produzir textos longos e coerentes — como um romance inteiro — era limitado pela escassez de dados estruturados que mostrassem não apenas o texto final, mas o processo de planejamento por trás dele.
O impacto potencial atinge desde desenvolvedores de ferramentas de escrita assistida por IA até equipes construindo sistemas de roleplay, NPCs para jogos e qualquer aplicação que exija geração de narrativas extensas com consistência temporal e de personagens.
O que foi anunciado
A Pageshift Entertainment, lab de pesquisa focado em storytelling com IA, liberou a atualização do LongPage no Hugging Face:
- Volume: 6.067 romances (antes eram ~300)
- Tamanho: 1.54 GB em formato Parquet/JSONL
- Fonte: Textos em domínio público do Project Gutenberg
- Licença: Textos em domínio público + traces sintéticos sob CC-BY-4.0
- Idioma: Apenas inglês
A equipe também anunciou que está treinando um modelo de escrita de livros completos usando o LongPage, com checkpoints internos já rodando. O modelo será liberado quando atingir qualidade aceitável.
Visão técnica simplificada
Arquitetura de planejamento hierárquico em três níveis
O diferencial do LongPage não é apenas ter romances completos, mas incluir reasoning traces que documentam a estrutura narrativa em três camadas:
1. Nível de Cena
- Segmentação baseada em regras (mudanças de tempo/lugar/POV) validada por LLM
- Cada cena tem um "embedding space" com 7 dimensões: ação, diálogo, world-building, exposição, romântico, erótico e pacing
- Resumos curtos de 10-20 palavras por bullet
2. Nível de Capítulo
- Agregação dos bullets de cena em sumário de capítulo
- Notas de estilo específicas do capítulo
- Embedding space calculado como média das cenas
- Validação de cobertura das cenas principais
3. Nível de Livro
- Arcos narrativos organizados
- "World rules" (desvios do mundo real moderno)
- Arquétipos de personagens (principais, secundários)
- Metadados sintéticos: título, tags, highlight, prompt
Pipeline de produção em dois estágios
O dataset foi construído com uma abordagem de distilação interessante:
Estágio 1 (Seed Set - 300 livros)
- Pipeline agentic multi-prompt com Qwen3-32B (reasoning habilitado)
- Rounds iterativos de sumarização + extração + agregação com self-checks
- Chain-of-thought completo
Estágio 2 (Scale Set - 5.700 livros)
- Modelos-ferramenta distilados one-shot
- Múltiplas instâncias de Qwen3-14B treinadas nos outputs do Estágio 1
- Modelos separados para cada camada (cena, capítulo, livro, metadados)
Estrutura de dados
Cada registro contém um JSON com campos estruturados:
{
"book_highlight": "str",
"book_title": "str (synthetic)",
"book_tags": ["str"],
"book_archetype": "str",
"world_rules": ["str"],
"story_arcs": ["str"],
"book_characters": {...},
"book_chapters": {
"chapter_name": {
"chapter": "full text",
"embedding_space": {...},
"scene_breakdown": [...]
}
}
}
O que muda na prática para engenheiros de IA
🚀 Performance: Modelos treinados com reasoning traces tendem a manter coerência em textos muito mais longos. O LongPage suporta livros de 40K a 600K+ tokens — ordens de magnitude acima do que a maioria dos datasets de creative writing oferece.
💸 Custos: Dataset gratuito sob licenças permissivas (domínio público + CC-BY-4.0). O compute para processar foi parcialmente financiado pelo TPU Research Cloud do Google. Para treinar, você precisará de GPUs/TPUs substanciais dado o tamanho dos textos.
🏗️ Arquitetura: O formato hierárquico permite múltiplas abordagens de treinamento:
- SFT cold-start:
prompt → thinking → book - Curriculum learning: pré-treinar em outlines, fine-tune em expansões
- Geração condicional: usar character sheets, world rules ou narrative focus como controle
🔐 Riscos: Traces são sintéticos (gerados por LLM) e podem conter imprecisões ou detalhes inventados sem grounding span-level. Textos históricos podem conter linguagem problemática, violência ou estereótipos.
🧪 Maturidade: Dataset novo, sem benchmark estabelecido ainda. O modelo prometido pela Pageshift ainda não foi liberado. A abordagem é promissora mas não validada em produção.
Casos de uso reais e potenciais
Ferramentas de escrita assistida por IA Aplicações como Sudowrite, NovelAI ou Jasper podem usar modelos treinados no LongPage para gerar drafts de capítulos inteiros mantendo consistência com o outline e personagens estabelecidos.
Sistemas de roleplay e ficção interativa Plataformas de roleplay baseadas em texto podem manter memória de longo prazo mais estruturada, usando as hierarquias de cena/capítulo para tracking de estado narrativo.
NPCs e narrativa dinâmica em games Jogos com diálogos procedurais podem se beneficiar de modelos que entendem arcos narrativos e mantêm consistência de personagem ao longo de interações extensas.
D&D e worldbuilding assistido DMs podem usar modelos treinados para gerar campanhas estruturadas com world rules consistentes e arcos de personagem que se desenvolvem de forma coerente.
Pesquisa em geração de texto longo O dataset oferece material para estudar como LLMs podem ser guiados por planejamento explícito, um problema central em geração de conteúdo extenso.
Limitações, riscos e pontos de atenção
Limitações técnicas
- Traces sintéticos: Gerados por Qwen3, não por humanos. Podem não refletir como escritores realmente planejam
- Apenas inglês: Sem suporte para português ou outros idiomas
- Prosa-cêntrica: Scripts e poesia são tratados de forma imperfeita
- Sem split predefinido: Você precisa criar sua própria divisão train/val/test
- Variação de tamanho: Long-tail de livros muito longos pode complicar batching
Riscos de produção
- Conteúdo histórico problemático: Obras do Project Gutenberg incluem linguagem datada e estereótipos
- Potencial duplicação: Pode haver overlap com outros corpora de domínio público usados em pré-treino
- Metadados originais ausentes: Autor, título original e ano não foram preservados
Hype vs realidade
O dataset é um recurso valioso, mas a promessa de "LLMs que escrevem livros completos" ainda precisa ser demonstrada na prática. Os traces de raciocínio são uma proxy estruturada do processo criativo, não uma captura real dele.
O que observar nos próximos meses
Liberação do modelo: A Pageshift prometeu liberar um modelo treinado no LongPage. A qualidade desse modelo será o teste real da abordagem.
Adoção pela comunidade: Se a comunidade LocalLLaMA e fine-tuners começarem a usar o dataset, veremos benchmarks comparativos e reports de uso surgindo.
Extensão para outros idiomas: Com a metodologia documentada, é possível que surjam versões para outras línguas usando Project Gutenberg ou fontes similares.
Integração com frameworks de agentes: O formato hierárquico se alinha bem com arquiteturas de agentes que planejam antes de executar — pode haver interessantes crossovers.
Padronização de formato: Se o formato de reasoning traces do LongPage for adotado por outros datasets, pode emergir um padrão de facto para training data de escrita longa.
Conexão com aprendizado
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência para textos longos, técnicas de curriculum learning e controle de geração — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: LongPage, reasoning traces, long-form generation, creative writing AI, Qwen3, hierarchical planning, Project Gutenberg, dataset open-source, curriculum learning, narrative AI
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Browser-Use: o framework open source que transforma qualquer site em API para agentes de IA
Browser-Use é um framework Python que permite a agentes de IA navegar, interagir e extrair dados de qualquer website atr...
Step-3.5-Flash-int4: o novo rei dos LLMs locais para dispositivos com 128GB de RAM
O Step-3.5-Flash-Int4 da Stepfun AI permite rodar um modelo de 197B parâmetros localmente com 256k de contexto, oferecen...
Mem0: A camada de memória universal para agentes de IA que pode reduzir 90% dos custos com tokens
Mem0 é uma biblioteca open-source que adiciona memória de longo prazo a agentes de IA, prometendo 91% menos latência e 9...