- Nov 13, 2025
A escassez de dados humanos para IA e por que os modelos estão se canibalizando
- Fernando Amaral
A escassez de dados humanos para IA acontece porque o ritmo de criação de conteúdo humano de qualidade não acompanha mais o apetite dos modelos gigantes. a lógica antes era simples, quanto mais dados e mais computação, melhor o modelo. Só que os melhores dados já foram, em grande parte, raspados da web, livros e repositórios públicos. O que sobra é mais ruidoso, repetitivo ou juridicamente problemático, copyright e dados sensíveis.
Ao mesmo tempo, modelos generativos passaram a produzir uma parte crescente do conteúdo novo da internet: posts, artigos, imagens, código, descrições de produto. Quando a próxima geração de modelos é treinada no que sobra, ela inevitavelmente aprende em cima de dados humanos misturados com saídas de IA. Aí que começa uma canibalização, a IA passa a aprender mais sobre como ela mesma escreve do que sobre como os humanos escrevem.
Esse processo leva ao chamado model collapse. O modelo perde os casos raros, estilos menos comuns, dando a impressão de que ficou “mais estável”, mas na prática empobrece a variedade. Em estágios avançados o modelo começa a repetir padrões, confundir conceitos e degradar seu desempenho geral, reciclando a própria média.
Isso está acontecendo por alguns motivos:
Escala agressiva: onde os datasets crescem mais rápido que a oferta de dados humanos de qualidade.
Limites legais/éticos: alguns dados úteis é protegido ou sensível.
Contaminação sintética: fica cada vez mais difícil separar o que é humano do que é gerado por IA.
As consequências são: dados humanos viram um ativo RARO, a diversidade cultural e linguística sofre, e métricas de avaliação podem enganar, já que o modelo é medido contra benchmarks também contaminados.
Para evitar que a IA se autodestrua, a saída passa por curar reservas de dados humanos, usar dados sintéticos de forma controlada, investir em novos tipos de dados reais e manter um debate sobre os limites de “crescer só aumentando dado e modelo”.