Nov 13, 2025

A escassez de dados humanos para IA e por que os modelos estão se canibalizando

Fernando Amaral

A escassez de dados humanos para IA acontece porque o ritmo de criação de conteúdo humano de qualidade não acompanha mais o apetite dos modelos gigantes. a lógica antes era simples, quanto mais dados e mais computação, melhor o modelo. Só que os melhores dados já foram, em grande parte, raspados da web, livros e repositórios públicos. O que sobra é mais ruidoso, repetitivo ou juridicamente problemático, copyright e dados sensíveis.

Ao mesmo tempo, modelos generativos passaram a produzir uma parte crescente do conteúdo novo da internet: posts, artigos, imagens, código, descrições de produto. Quando a próxima geração de modelos é treinada no que sobra, ela inevitavelmente aprende em cima de dados humanos misturados com saídas de IA. Aí que começa uma canibalização, a IA passa a aprender mais sobre como ela mesma escreve do que sobre como os humanos escrevem.

Esse processo leva ao chamado model collapse. O modelo perde os casos raros, estilos menos comuns, dando a impressão de que ficou “mais estável”, mas na prática empobrece a variedade. Em estágios avançados o modelo começa a repetir padrões, confundir conceitos e degradar seu desempenho geral, reciclando a própria média.

Isso está acontecendo por alguns motivos:

Escala agressiva: onde os datasets crescem mais rápido que a oferta de dados humanos de qualidade.

Limites legais/éticos: alguns dados úteis é protegido ou sensível.

Contaminação sintética: fica cada vez mais difícil separar o que é humano do que é gerado por IA.

As consequências são: dados humanos viram um ativo RARO, a diversidade cultural e linguística sofre, e métricas de avaliação podem enganar, já que o modelo é medido contra benchmarks também contaminados.

Para evitar que a IA se autodestrua, a saída passa por curar reservas de dados humanos, usar dados sintéticos de forma controlada, investir em novos tipos de dados reais e manter um debate sobre os limites de “crescer só aumentando dado e modelo”.

0 comments

Sign upor login to leave a comment

Receba Atualizações!

Obtenha atualizações ao se inscrever na nossa news letter!