Todos os dias, uma quantidade enorme de dados é gerada na internet. Mas, chegará um momento em que esses montantes não serão o bastante para treinar as inteligências artificiais. Segundo uma investigação realizada por um grupo de pesquisadores, até 2026, poderemos não ter combustível (ou dados) suficiente para alimentar a tecnologia.

Se essa tendência continuar, a velocidade de aprimoramento das IAs, especialmente as de grande porte, como o ChatGPT, pode diminuir drasticamente.

Confira o estudo em inglês clicando aqui. Ele foi conduzido por integrantes de diferentes universidades, incluindo o MIT Computer Science & Artificial Intelligence Laboratory.

Previsões da pesquisa:

Quantos e quais dados são preciso para treinar uma IA?

Para desenvolver uma IA de alto desempenho é preciso uma quantidade enorme de dados. O ChatGPT, por exemplo, foi treinado com 570 gigabytes de dados de texto — algo em torno de 300 bilhões de palavras. Já o algoritmo de difusão estável, usado por DALL-E, Lensa e Midjourney, foi treinado por um conjunto de dados com 5,8 bilhões de pares de imagem-texto.

A quantidade de dados impacta diretamente a qualidade da IA. Caso ela seja treinada com menos do que precisa, pode gerar resultados insatisfatórios ou imprecisos. É a mesma lógica para o tipo de dado utilizado. Se tiverem como fonte publicações em redes sociais, as resposta da tecnologia podem carregar preconceitos ou informações inverídicas. Um caso desses aconteceu com a Microsoft. A empresa treinou seu bot com dados do X (antigo Twitter), resultando em conteúdos racista e misóginos.

É por esse motivo que os profissionais da área preferem ter como fonte os textos de livros, artigos online, artigos científicos e determinados conteúdos filtrados da web.

As possíveis soluções