LongPage: dataset com mais de 6 mil romances e traces de raciocínio para treinar LLMs de escrita longa

A comunidade de IA open-source acaba de ganhar um recurso significativo para quem trabalha com geração de texto longo: o dataset LongPage foi atualizado para incluir mais de 6 mil romances completos, cada um acompanhado de traces de raciocínio hierárquico que decompõem a narrativa desde o outline geral até cenas individuais.

Para engenheiros de IA que trabalham com geração de conteúdo criativo, isso representa uma mudança importante. Até agora, treinar modelos para produzir textos longos e coerentes — como um romance inteiro — era limitado pela escassez de dados estruturados que mostrassem não apenas o texto final, mas o processo de planejamento por trás dele.

O impacto potencial atinge desde desenvolvedores de ferramentas de escrita assistida por IA até equipes construindo sistemas de roleplay, NPCs para jogos e qualquer aplicação que exija geração de narrativas extensas com consistência temporal e de personagens.

O que foi anunciado

A Pageshift Entertainment, lab de pesquisa focado em storytelling com IA, liberou a atualização do LongPage no Hugging Face:

Volume: 6.067 romances (antes eram ~300)
Tamanho: 1.54 GB em formato Parquet/JSONL
Fonte: Textos em domínio público do Project Gutenberg
Licença: Textos em domínio público + traces sintéticos sob CC-BY-4.0
Idioma: Apenas inglês

A equipe também anunciou que está treinando um modelo de escrita de livros completos usando o LongPage, com checkpoints internos já rodando. O modelo será liberado quando atingir qualidade aceitável.

Visão técnica simplificada

Arquitetura de planejamento hierárquico em três níveis

O diferencial do LongPage não é apenas ter romances completos, mas incluir reasoning traces que documentam a estrutura narrativa em três camadas:

1. Nível de Cena

Segmentação baseada em regras (mudanças de tempo/lugar/POV) validada por LLM
Cada cena tem um "embedding space" com 7 dimensões: ação, diálogo, world-building, exposição, romântico, erótico e pacing
Resumos curtos de 10-20 palavras por bullet

2. Nível de Capítulo

Agregação dos bullets de cena em sumário de capítulo
Notas de estilo específicas do capítulo
Embedding space calculado como média das cenas
Validação de cobertura das cenas principais

3. Nível de Livro

Arcos narrativos organizados
"World rules" (desvios do mundo real moderno)
Arquétipos de personagens (principais, secundários)
Metadados sintéticos: título, tags, highlight, prompt

Pipeline de produção em dois estágios

O dataset foi construído com uma abordagem de distilação interessante:

Estágio 1 (Seed Set - 300 livros)

Pipeline agentic multi-prompt com Qwen3-32B (reasoning habilitado)
Rounds iterativos de sumarização + extração + agregação com self-checks
Chain-of-thought completo

Estágio 2 (Scale Set - 5.700 livros)

Modelos-ferramenta distilados one-shot
Múltiplas instâncias de Qwen3-14B treinadas nos outputs do Estágio 1
Modelos separados para cada camada (cena, capítulo, livro, metadados)

Estrutura de dados

Cada registro contém um JSON com campos estruturados:

{
  "book_highlight": "str",
  "book_title": "str (synthetic)",
  "book_tags": ["str"],
  "book_archetype": "str",
  "world_rules": ["str"],
  "story_arcs": ["str"],
  "book_characters": {...},
  "book_chapters": {
    "chapter_name": {
      "chapter": "full text",
      "embedding_space": {...},
      "scene_breakdown": [...]
    }
  }
}

O que muda na prática para engenheiros de IA

🚀 Performance: Modelos treinados com reasoning traces tendem a manter coerência em textos muito mais longos. O LongPage suporta livros de 40K a 600K+ tokens — ordens de magnitude acima do que a maioria dos datasets de creative writing oferece.

💸 Custos: Dataset gratuito sob licenças permissivas (domínio público + CC-BY-4.0). O compute para processar foi parcialmente financiado pelo TPU Research Cloud do Google. Para treinar, você precisará de GPUs/TPUs substanciais dado o tamanho dos textos.

🏗️ Arquitetura: O formato hierárquico permite múltiplas abordagens de treinamento:

SFT cold-start: prompt → thinking → book
Curriculum learning: pré-treinar em outlines, fine-tune em expansões
Geração condicional: usar character sheets, world rules ou narrative focus como controle

🔐 Riscos: Traces são sintéticos (gerados por LLM) e podem conter imprecisões ou detalhes inventados sem grounding span-level. Textos históricos podem conter linguagem problemática, violência ou estereótipos.

🧪 Maturidade: Dataset novo, sem benchmark estabelecido ainda. O modelo prometido pela Pageshift ainda não foi liberado. A abordagem é promissora mas não validada em produção.

Casos de uso reais e potenciais

Ferramentas de escrita assistida por IA Aplicações como Sudowrite, NovelAI ou Jasper podem usar modelos treinados no LongPage para gerar drafts de capítulos inteiros mantendo consistência com o outline e personagens estabelecidos.

Sistemas de roleplay e ficção interativa Plataformas de roleplay baseadas em texto podem manter memória de longo prazo mais estruturada, usando as hierarquias de cena/capítulo para tracking de estado narrativo.

NPCs e narrativa dinâmica em games Jogos com diálogos procedurais podem se beneficiar de modelos que entendem arcos narrativos e mantêm consistência de personagem ao longo de interações extensas.

D&D e worldbuilding assistido DMs podem usar modelos treinados para gerar campanhas estruturadas com world rules consistentes e arcos de personagem que se desenvolvem de forma coerente.

Pesquisa em geração de texto longo O dataset oferece material para estudar como LLMs podem ser guiados por planejamento explícito, um problema central em geração de conteúdo extenso.

Limitações, riscos e pontos de atenção

Limitações técnicas

Traces sintéticos: Gerados por Qwen3, não por humanos. Podem não refletir como escritores realmente planejam
Apenas inglês: Sem suporte para português ou outros idiomas
Prosa-cêntrica: Scripts e poesia são tratados de forma imperfeita
Sem split predefinido: Você precisa criar sua própria divisão train/val/test
Variação de tamanho: Long-tail de livros muito longos pode complicar batching

Riscos de produção

Conteúdo histórico problemático: Obras do Project Gutenberg incluem linguagem datada e estereótipos
Potencial duplicação: Pode haver overlap com outros corpora de domínio público usados em pré-treino
Metadados originais ausentes: Autor, título original e ano não foram preservados

Hype vs realidade

O dataset é um recurso valioso, mas a promessa de "LLMs que escrevem livros completos" ainda precisa ser demonstrada na prática. Os traces de raciocínio são uma proxy estruturada do processo criativo, não uma captura real dele.

O que observar nos próximos meses

Liberação do modelo: A Pageshift prometeu liberar um modelo treinado no LongPage. A qualidade desse modelo será o teste real da abordagem.

Adoção pela comunidade: Se a comunidade LocalLLaMA e fine-tuners começarem a usar o dataset, veremos benchmarks comparativos e reports de uso surgindo.

Extensão para outros idiomas: Com a metodologia documentada, é possível que surjam versões para outras línguas usando Project Gutenberg ou fontes similares.

Integração com frameworks de agentes: O formato hierárquico se alinha bem com arquiteturas de agentes que planejam antes de executar — pode haver interessantes crossovers.

Padronização de formato: Se o formato de reasoning traces do LongPage for adotado por outros datasets, pode emergir um padrão de facto para training data de escrita longa.

Conexão com aprendizado

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam esse tipo de abordagem — como pipelines de inferência para textos longos, técnicas de curriculum learning e controle de geração — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: LongPage, reasoning traces, long-form generation, creative writing AI, Qwen3, hierarchical planning, Project Gutenberg, dataset open-source, curriculum learning, narrative AI