Estudo da CMU confirma: IA ainda está piorando a qualidade do código
Uma nova pesquisa da Carnegie Mellon University traz dados preocupantes para quem trabalha com desenvolvimento de software assistido por IA: repositórios que adotaram ferramentas como Cursor apresentaram aumento significativo em métricas de baixa qualidade de código.
O estudo é relevante porque abrange um período de grandes avanços em modelos de linguagem — incluindo o lançamento do Claude 3.7 Sonnet e recursos como agent mode — mas ainda assim encontrou degradação persistente na manutenibilidade do código.
Engenheiros de software, tech leads e times de plataforma que estão integrando assistentes de IA em seus workflows precisam entender essas limitações para implementar guardrails adequados.
O QUE FOI PUBLICADO
Pesquisadores da Carnegie Mellon University conduziram um estudo longitudinal analisando o impacto de ferramentas de IA na qualidade do código em projetos open source.
Escopo da pesquisa:
- 807 repositórios GitHub que adotaram Cursor (IDE com IA integrada) entre janeiro de 2024 e março de 2025
- 1.380 repositórios similares sem adoção de IA como grupo de controle
- Análise até agosto de 2025
- Filtro: apenas projetos com pelo menos 10 stars para excluir repositórios experimentais
Metodologia:
- Uso do SonarQube para análise estática de código
- Métricas acompanhadas mensalmente: warnings, duplicação de código e complexidade
- Comparação temporal pré e pós-adoção das ferramentas
VISÃO TÉCNICA SIMPLIFICADA
O que foi medido
O estudo utilizou o SonarQube, uma plataforma estabelecida de análise estática, para quantificar três dimensões principais de qualidade:
- Warnings de análise estática — indicadores de potenciais bugs, vulnerabilidades e code smells
- Duplicação de código — percentual de código repetido que indica falta de abstração
- Complexidade ciclomática — medida de quantos caminhos de execução existem no código
Principais achados quantitativos
Atividade de desenvolvimento:
- Pico inicial de commits e linhas adicionadas nos primeiros 1-2 meses após adoção
- Retorno ao baseline no terceiro mês, sem aumento sustentado de produtividade
Degradação de qualidade:
- Warnings de análise estática aumentaram aproximadamente 30% e permaneceram elevados
- Complexidade do código subiu mais de 40%, excedendo o que o crescimento do codebase sozinho explicaria
Por que isso importa tecnicamente
O período analisado (dezembro de 2024 a maio de 2025) coincide com melhorias significativas nas ferramentas:
- Upgrade do Cursor com agent mode
- Lançamento do Claude 3.7 Sonnet
- Introdução de modelos com reasoning avançado
Mesmo assim, os problemas de qualidade persistiram, sugerindo que a questão vai além da proficiência do usuário ou da capacidade do modelo.
O problema do "Context Collapse"
Uma preocupação levantada pelo estudo é o risco de ciclo de feedback negativo:
- Ferramentas de IA geram código de baixa qualidade
- Esse código é commitado em repositórios públicos
- Futuros modelos são treinados nesses repositórios
- Novos modelos replicam e amplificam os mesmos problemas
Isso cria um potencial loop de degradação que pode afetar a qualidade de todo o ecossistema de desenvolvimento assistido por IA.
O QUE MUDA NA PRÁTICA PARA ENGENHEIROS DE IA
🚀 Performance — O boost inicial de produtividade (mais commits, mais linhas) não se sustenta além de 2-3 meses. Expectativas de ganhos permanentes precisam ser recalibradas.
💸 Custos — Código mais complexo e com mais warnings significa maior custo de manutenção a longo prazo. O ganho de velocidade no curto prazo pode virar dívida técnica.
🏗️ Arquitetura — Os problemas identificados são estruturais: funções excessivamente longas, aninhamento profundo de condicionais, complexidade desnecessária. Ferramentas de IA parecem não abstrair bem.
🔐 Riscos — Warnings elevados incluem potenciais vulnerabilidades de segurança. Times precisam manter (ou intensificar) code review humano.
🧪 Maturidade — Mesmo com Claude 3.7 e agent mode, os problemas persistem. A tecnologia ainda não está madura para uso sem supervisão rigorosa.
CASOS DE USO REAIS E POTENCIAIS
Onde o impacto é mais crítico
Startups em fase de crescimento rápido:
- Pressão por velocidade pode levar a aceitar código gerado sem revisão adequada
- Dívida técnica acumulada dificulta escalar o time depois
Times de plataforma e infra:
- Código de infraestrutura complexo demais é difícil de debugar em produção
- Automações com alta complexidade ciclomática são mais propensas a edge cases
Desenvolvimento de agentes e sistemas RAG:
- Pipelines de IA construídos com código de baixa qualidade herdam fragilidades
- Debugging de sistemas compostos fica exponencialmente mais difícil
Onde guardrails podem ajudar
- Projetos que usam convenções documentadas (como Claude.md) relatam melhores resultados
- Integração de linters e análise estática no CI/CD como gate obrigatório
- Code review focado em complexidade, não apenas funcionalidade
LIMITAÇÕES, RISCOS E PONTOS DE ATENÇÃO
Limitações do estudo
- Foco apenas em repositórios open source (comportamento em código proprietário pode diferir)
- Análise limitada a projetos que adotaram Cursor (outras ferramentas podem ter resultados diferentes)
- Não diferencia entre desenvolvedores experientes e iniciantes
Riscos técnicos identificados
- Funções muito longas — difíceis de testar e manter
- Aninhamento profundo — indica lógica mal estruturada
- Complexidade desnecessária — overhead cognitivo para quem mantém
O problema do hype
Há uma dissonância entre a narrativa de "10x developer with AI" e os dados empíricos. Times que adotam ferramentas de IA esperando ganhos automáticos de qualidade podem estar criando problemas futuros.
Risco sistêmico
O "context collapse" descrito no estudo representa um risco para todo o ecossistema: se modelos futuros forem treinados em código degradado, a qualidade baseline de toda a indústria pode cair.
O QUE OBSERVAR NOS PRÓXIMOS MESES
Evolução das ferramentas:
- Cursor, Copilot e outras ferramentas vão incorporar análise de qualidade nativamente?
- Modelos futuros serão treinados com filtros de qualidade de código?
Resposta da indústria:
- Empresas vão criar guidelines mais rigorosos para uso de IA em desenvolvimento?
- Veremos certificações ou padrões para "AI-assisted code quality"?
Pesquisa acadêmica:
- Estudos similares em código proprietário confirmarão os achados?
- Haverá propostas de arquiteturas de modelo que priorizem manutenibilidade?
Práticas emergentes:
- Adoção de "AI code review" automatizado como contraponto?
- Novas métricas específicas para avaliar código gerado por IA?
CONEXÃO COM APRENDIZADO
Para quem quer se aprofundar em como arquitetar sistemas que aproveitam IA de forma sustentável — incluindo práticas de code review, pipelines de qualidade e integração responsável de assistentes de código — esse tema faz parte dos estudos da AI Engineering Academy.
🚀 Faça parte da comunidade AI Engineering
Quer receber as principais notícias de AI Engineering em primeira mão e trocar ideias com outros profissionais? Entre no nosso grupo no WhatsApp!
Termos relacionados: qualidade de código, análise estática, SonarQube, complexidade ciclomática, Cursor IDE, Claude 3.7, assistentes de IA para código, dívida técnica, code review, Carnegie Mellon University
Quer ir além das notícias?
Aprenda a construir aplicações com IA na AI Engineering Academy.
Fique por dentro das novidades
Receba as últimas notícias sobre AI Engineering diretamente no seu email. Sem spam, prometemos.
Ao se inscrever, você concorda com nossa política de privacidade .
Artigos Relacionados
Treinamento de RL Agêntico para modelos GPT-OSS: lições práticas do LinkedIn com MoE e FlashAttention
LinkedIn revela desafios técnicos ao treinar modelos GPT-OSS com RL agêntico: problemas de roteamento MoE, inconsistênci...
MaliciousCorgi: extensões de IA populares vazaram código de 1,5 milhão de desenvolvedores
Duas extensões de IA para VS Code com 1,5 milhão de instalações continham código malicioso idêntico que exfiltrava arqui...
Graph Neural Networks para previsão de demanda: por que séries temporais sozinhas não bastam
Previsão de demanda tradicionalmente trata cada SKU isoladamente. Graph Neural Networks mudam isso ao capturar relações...