Chatbots – por exemplo, ChatGPT, da OpenAI – não conseguem pensar igual humanos, porque não entendem o que dizem. Eles são capazes de imitar a fala humana porque a IA (inteligência artificial) que os alimenta ingeriu uma quantidade gigantesca de texto – a maioria extraída da internet.

As empresas de tecnologia são bem reservadas em relação ao que alimentam suas IAs. Mas o jornal The Washington Post analisou um desses conjuntos de dados para revelar tipos de sites – muitas vezes ofensivos – que entram nos dados de treinamento de uma IA (neste caso, focado na língua inglesa e cultura estadunidense).

Para explorar essa caixa preta, o jornal analisou o conjunto de dados C4 do Google, uma espécie de pacote com 15 milhões de sites usados ​​para instruir algumas IAs de ponta – os chamados LLM (sigla em inglês para “Modelos Grandes de Linguagem”). No caso da OpenAI, empresa não divulga quais conjuntos de dados usa para treinar modelos que suportam o ChatGPT.

Caixa preta das IAs

Categorias de sites usados para treinar IAs
Sites de setores como jornalismo, entretenimento e criação de conteúdo dominaram conjunto de dados alimentados em IAs (Imagem: Washington Post)

Essas toneladas de texto são a principal fonte de informação da IA ​​sobre o mundo à medida que está sendo construído e influencia como ela responde aos usuários. O conjunto de dados foi dominado por sites de setores como jornalismo, entretenimento, desenvolvimento de software, medicina e criação de conteúdo, ajudando a explicar por que esses campos podem estar ameaçados pela nova onda de IA.

O jornal trabalhou com pesquisadores do Allen Institute for AI e categorizou dez milhões de sites com base em quantos “tokens” apareceram em cada um no conjunto de dados. Tokens são pequenos pedaços de texto usados ​​para processar informações desorganizadas — geralmente uma palavra ou frase. Confira abaixo destaques da lista:

No pódio, apareceram: Patentes (do Google), que contém textos de patentes emitidas em todo o mundo; Wikipédia, a enciclopédia online gratuita; e Scribd, biblioteca digital somente para assinatura. Além disso, pelo menos 28 sites identificados pelo governo dos EUA como mercados de pirataria e falsificações estavam presentes no conjunto de dados.

Outros levantaram preocupações significativas com privacidade. Dois sites entre os 100 primeiros, Colorado Voters e Fl Voters tinham cópias hospedadas de forma privada dos bancos de dados estaduais de registro de eleitores. Embora dados dos eleitores sejam públicos, modelos podem usar essas informações pessoais de maneiras desconhecidas.

Par de mãos robóticas sobre teclado
Alguns tipos de sites podem dar à IA acesso às ideias de artistas, o que abre precedente para cópia sem consentimento (Imagem: Reprodução/Harvard Gazette)

Sites comerciais e industriais compunham a maior categoria (16% dos tokens categorizados), liderados pelo Silly, que fornece consultoria de investimento. Não muito atrás estava Kickstarter, que permite aos usuários fazer crowdfund – espécie de vaquinha – para projetos criativos, e mais abaixo na lista, Patreon, que ajuda criadores de conteúdo a cobrarem assinaturas por conteúdo exclusivo.

O Kickstarter e o Patreon podem dar à IA acesso às ideias dos artistas e cópias de marketing, levantando preocupações de que a tecnologia possa copiar este trabalho em sugestões aos usuários. Atualmente, os artistas não recebem compensação ou crédito quando seu trabalho é incluído nos dados de treinamento de IA e apresentaram reclamações de violação de direitos autorais contra os geradores de conversão de texto em imagem Stable Diffusion, Midjourney e DeviantArt.

Pessoa olhando para home do site do jornal The New York Times num computador
Alguns veículos de comunicação criticaram empresas de tecnologia por usarem seu conteúdo para treinar IAs sem autorização ou compensação (Imagem: Karen Bleier/AFP/Getty Images)

A categoria Notícias e mídia ocupa o terceiro lugar entre as categorias. Mas metade dos dez principais sites no geral eram veículos de notícias: The New York Times, LA Times, The Guardian, Forbes e The Huffington Post. Como artistas e criadores de conteúdo, algumas organizações de notícias criticaram empresas de tecnologia por usarem seu conteúdo sem autorização ou compensação.

Enquanto isso, apuração do Washington Post encontrou vários meios de comunicação com classificação baixa na escala independente de confiabilidade do NewsGuard (ferramenta de jornalismo e tecnologia que avalia a credibilidade de sítios de notícias e informações e rastreia a desinformação online): RT, site de propaganda apoiado pelo Estado russo; Breit Bart, conhecida fonte de notícias e opiniões de extrema-direita; e VDare, site anti-imigração associado à supremacia branca.

Foi demonstrado que os chatbots compartilham informações incorretas com confiança, mas nem sempre oferecem citações. Dados de treinamento não confiáveis ​​podem levá-los a espalhar preconceito, propaganda e desinformação – sem que o usuário seja capaz de rastreá-los até a fonte original.

Ilustração com símbolos de religiões em janelas de navegação
Conjunto de sites refletia, principalmente, perspectiva ocidental (Imagem: Vox)

Os sites dedicados à comunidade representam cerca de 5% do conteúdo categorizado, com a religião dominando essa categoria. Entre os 20 principais sites religiosos, 14 eram cristãos, dois eram judeus e um era muçulmano, um era mórmon, um era testemunha de Jeová e um celebrava todas as religiões. Ou seja, conjunto refletia perspectiva ocidental.

O principal site cristão, Grace to You, pertence à Grace Community Church, uma megaigreja evangélica na Califórnia. O Christianity Today relatou recentemente que a igreja aconselhou as mulheres a “continuar a se submeter” a pais e maridos abusivos e a evitar denunciá-los às autoridades.

O site judeu mais bem classificado foi o Jewish Worldreview, revista online para judeus ortodoxos. Em dezembro, veículo publicou um artigo sobre o Hanukkah que culpou o aumento do antissemitismo nos Estados Unidos no “Islã fundamentalista de extrema direita”, bem como “uma comunidade afro-americana influenciada pelo movimento Black Lives Matter”.

O viés anti-muçulmano surgiu como um problema em alguns modelos de linguagem. Por exemplo, um estudo publicado na revista Nature descobriu que o ChatGPT-3 da OpenAI completou a frase “Dois muçulmanos entraram em um…” com ações violentas 66% das vezes.

Ilustração de mãos montando página de blog num computador
Conjunto de dados ingeridos por IAs tinha mais de meio milhão de blogs pessoais (Imagem: Grammarly)

A tecnologia é a segunda maior categoria, representando 15% dos tokens categorizados. Isso inclui muitas plataformas para construir sites, como Sites (do Google), que hospeda páginas para tudo, desde um clube de judô em Reading, Inglaterra, até uma pré-escola católica em Nova Jersey.

O conjunto de dados continha mais de meio milhão de blogs pessoais, representando 3,8% dos tokens categorizados. A plataforma de publicação Medium foi o quinto maior site de tecnologia e hospeda dezenas de milhares de blogs sob seu domínio. Nossa contagem inclui blogs escritos em plataformas como WordPress, Tumblr, Blogspot e Live Journal.

Esses diários on-line variavam de profissionais a pessoais, como um blog chamado “Grumpy Rumblings”, co-escrito por dois acadêmicos anônimos, um dos quais escreveu recentemente sobre como o desemprego de seu parceiro afetou os impostos do casal. Um dos principais blogs ofereceu conselhos para jogos de RPG de ação ao vivo. Outro site importante, Palestinos Desenraizados, costuma escrever sobre “terrorismo sionista” e “ideologia sionista”.

Redes sociais como Facebook e Twitter – o coração da web moderna – proíbem a “raspagem”, o que significa que a maioria dos conjuntos de dados usados ​​para treinar IA não podem acessá-los. Gigantes da tecnologia como Facebook e Google, que estão sentados em gigantescos tesouros de dados de conversação, não deixaram claro sobre como informações pessoais do usuário podem ser usadas para treinar modelos de IA usados ​​internamente ou vendidos como produtos.

O que filtros deixaram passar

Ilustração com série de ícones despejados em funil
Enquanto filtros seguram conteúdos LGBTQIA+ não-sexual, deixam passar outros com apologia a algum tipo de violação aos direitos humanos (Imagem: GoGuardian)

Como a maioria das empresas, o Google filtrou fortemente dados antes de alimentá-los para a IA (C4 significa Colossal Clean Crawled Corpus). Além de remover textos incompreensíveis e duplicados, a empresa usou a “Lista de palavras sujas, impertinentes, obscenas e outras palavras ruins” de código aberto, que inclui 402 termos em inglês e um emoji (uma mão fazendo um gesto comum, mas obsceno). As empresas normalmente usam conjuntos de dados de alta qualidade para ajustar modelos, protegendo usuários de algum conteúdo indesejado.

Embora esse tipo de lista de bloqueio tenha como objetivo limitar a exposição de um modelo a calúnias e obscenidades raciais durante o treinamento, também foi demonstrado que elimina conteúdo LGBTQIA+ não-sexual. Como pesquisas anteriores mostraram, muita coisa passa pelos filtros. Encontramos centenas de exemplos de sites pornográficos e mais de 72 mil ocorrências de “suástica”, um dos termos banidos da lista.

Enquanto isso, a apuração do jornal descobriu que filtros não conseguiram remover algum conteúdo preocupante, incluindo o site supremacista branco Storm Front, o site anti-trans Kiwi Farms e 4chan, fórum conhecido por organizar campanhas de assédio contra indivíduos.

Investigação do Washington Post também encontrou Three Percent Patriots, site desativado que defende ideologia antigovernamental compartilhada por pessoas acusadas de relação com o ataque de 6 de janeiro de 2021 ao Capitólio dos EUA. E sites que promovem teorias da conspiração. O fenômeno QAnon de extrema direita e “Pizzagate”, falsa alegação de que uma pizzaria em Washington era fachada para pedófilos, também estavam presentes.

Com informações do Washington Post

Já assistiu aos nossos novos vídeos no YouTube? Inscreva-se no nosso canal!