Estudo da CMU confirma: IA ainda está piorando a qualidade do código

Uma nova pesquisa da Carnegie Mellon University traz dados preocupantes para quem trabalha com desenvolvimento de software assistido por IA: repositórios que adotaram ferramentas como Cursor apresentaram aumento significativo em métricas de baixa qualidade de código.

O estudo é relevante porque abrange um período de grandes avanços em modelos de linguagem — incluindo o lançamento do Claude 3.7 Sonnet e recursos como agent mode — mas ainda assim encontrou degradação persistente na manutenibilidade do código.

Engenheiros de software, tech leads e times de plataforma que estão integrando assistentes de IA em seus workflows precisam entender essas limitações para implementar guardrails adequados.

O QUE FOI PUBLICADO

Pesquisadores da Carnegie Mellon University conduziram um estudo longitudinal analisando o impacto de ferramentas de IA na qualidade do código em projetos open source.

Escopo da pesquisa:

807 repositórios GitHub que adotaram Cursor (IDE com IA integrada) entre janeiro de 2024 e março de 2025
1.380 repositórios similares sem adoção de IA como grupo de controle
Análise até agosto de 2025
Filtro: apenas projetos com pelo menos 10 stars para excluir repositórios experimentais

Metodologia:

Uso do SonarQube para análise estática de código
Métricas acompanhadas mensalmente: warnings, duplicação de código e complexidade
Comparação temporal pré e pós-adoção das ferramentas

VISÃO TÉCNICA SIMPLIFICADA

O que foi medido

O estudo utilizou o SonarQube, uma plataforma estabelecida de análise estática, para quantificar três dimensões principais de qualidade:

Warnings de análise estática — indicadores de potenciais bugs, vulnerabilidades e code smells
Duplicação de código — percentual de código repetido que indica falta de abstração
Complexidade ciclomática — medida de quantos caminhos de execução existem no código

Principais achados quantitativos

Atividade de desenvolvimento:

Pico inicial de commits e linhas adicionadas nos primeiros 1-2 meses após adoção
Retorno ao baseline no terceiro mês, sem aumento sustentado de produtividade

Degradação de qualidade:

Warnings de análise estática aumentaram aproximadamente 30% e permaneceram elevados
Complexidade do código subiu mais de 40%, excedendo o que o crescimento do codebase sozinho explicaria

Por que isso importa tecnicamente

O período analisado (dezembro de 2024 a maio de 2025) coincide com melhorias significativas nas ferramentas:

Upgrade do Cursor com agent mode
Lançamento do Claude 3.7 Sonnet
Introdução de modelos com reasoning avançado

Mesmo assim, os problemas de qualidade persistiram, sugerindo que a questão vai além da proficiência do usuário ou da capacidade do modelo.

O problema do "Context Collapse"

Uma preocupação levantada pelo estudo é o risco de ciclo de feedback negativo:

Ferramentas de IA geram código de baixa qualidade
Esse código é commitado em repositórios públicos
Futuros modelos são treinados nesses repositórios
Novos modelos replicam e amplificam os mesmos problemas

Isso cria um potencial loop de degradação que pode afetar a qualidade de todo o ecossistema de desenvolvimento assistido por IA.

O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA

🚀 Performance — O boost inicial de produtividade (mais commits, mais linhas) não se sustenta além de 2-3 meses. Expectativas de ganhos permanentes precisam ser recalibradas.

💸 Custos — Código mais complexo e com mais warnings significa maior custo de manutenção a longo prazo. O ganho de velocidade no curto prazo pode virar dívida técnica.

🏗️ Arquitetura — Os problemas identificados são estruturais: funções excessivamente longas, aninhamento profundo de condicionais, complexidade desnecessária. Ferramentas de IA parecem não abstrair bem.

🔐 Riscos — Warnings elevados incluem potenciais vulnerabilidades de segurança. Times precisam manter (ou intensificar) code review humano.

🧪 Maturidade — Mesmo com Claude 3.7 e agent mode, os problemas persistem. A tecnologia ainda não está madura para uso sem supervisão rigorosa.

CASOS DE USO REAIS E POTENCIAIS

Onde o impacto é mais crítico

Startups em fase de crescimento rápido:

Pressão por velocidade pode levar a aceitar código gerado sem revisão adequada
Dívida técnica acumulada dificulta escalar o time depois

Times de plataforma e infra:

Código de infraestrutura complexo demais é difícil de debugar em produção
Automações com alta complexidade ciclomática são mais propensas a edge cases

Desenvolvimento de agentes e sistemas RAG:

Pipelines de IA construídos com código de baixa qualidade herdam fragilidades
Debugging de sistemas compostos fica exponencialmente mais difícil

Onde guardrails podem ajudar

Projetos que usam convenções documentadas (como Claude.md) relatam melhores resultados
Integração de linters e análise estática no CI/CD como gate obrigatório
Code review focado em complexidade, não apenas funcionalidade

LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO

Limitações do estudo

Foco apenas em repositórios open source (comportamento em código proprietário pode diferir)
Análise limitada a projetos que adotaram Cursor (outras ferramentas podem ter resultados diferentes)
Não diferencia entre desenvolvedores experientes e iniciantes

Riscos técnicos identificados

Funções muito longas — difíceis de testar e manter
Aninhamento profundo — indica lógica mal estruturada
Complexidade desnecessária — overhead cognitivo para quem mantém

O problema do hype

Há uma dissonância entre a narrativa de "10x developer with AI" e os dados empíricos. Times que adotam ferramentas de IA esperando ganhos automáticos de qualidade podem estar criando problemas futuros.

Risco sistêmico

O "context collapse" descrito no estudo representa um risco para todo o ecossistema: se modelos futuros forem treinados em código degradado, a qualidade baseline de toda a indústria pode cair.

O QUE OBSERVAR NOS PRÓXIMOS MESES

Evolução das ferramentas:

Cursor, Copilot e outras ferramentas vão incorporar análise de qualidade nativamente?
Modelos futuros serão treinados com filtros de qualidade de código?

Resposta da indústria:

Empresas vão criar guidelines mais rigorosos para uso de IA em desenvolvimento?
Veremos certificações ou padrões para "AI-assisted code quality"?

Pesquisa acadêmica:

Estudos similares em código proprietário confirmarão os achados?
Haverá propostas de arquiteturas de modelo que priorizem manutenibilidade?

Práticas emergentes:

Adoção de "AI code review" automatizado como contraponto?
Novas métricas específicas para avaliar código gerado por IA?

CONEXÃO COM APRENDIZADO

Para quem quer se aprofundar em como arquitetar sistemas que aproveitam IA de forma sustentável — incluindo práticas de code review, pipelines de qualidade e integração responsável de assistentes de código — esse tema faz parte dos estudos da AI Engineering Academy.

🚀 Faça parte da comunidade AI Engineering

Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!

👉 Entrar no grupo do WhatsApp

Termos relacionados: qualidade de código, análise estática, SonarQube, complexidade ciclomática, Cursor IDE, Claude 3.7, assistentes de IA para código, dívida técnica, code review, Carnegie Mellon University