Grande parte dos treinamentos das IAs atuais, como o ChatGPT, da OpenAI, e o Bard, do Google, aconteceu na internet. Isso porque os modelos de linguagem são treinados a partir de conteúdos, palavras e frases já existentes – e que melhor lugar para isso do que online?
No entanto, a OpenAI é uma das empresas que não detalha exatamente de onde obteve seus dados, que pode ser desde trabalhos com direitos autorais a publicações pessoais de internautas. Agora, a desenvolvedora do ChatGPT anunciou que permitirá ao usuário bloquear o rastreador responsável por coletar os dados dos usuários.
Para que serve o bloqueador
A OpenAI publicou em seu blog que os programadores de sites podem proibir especificamente o rastreador GPTBot, responsável por rastrear páginas da web acessadas por um usuário, ou ainda bloquear seu endereço IP, que torna o dispositivo uma espécie de rastreador de dados.
Segundo a empresa, as páginas da web rastreadas com o recurso ajudam a treinar os modelos de linguagem das IAs.
Páginas da Web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que exigem acesso pago, são conhecidas por coletar informações de identificação pessoal (PII) ou ter texto que viole nossas políticas.
OpenAI, em seu blog
Ainda segundo a desenvolvedora, se uma fonte não se enquadrar nos critérios delimitados acima, ela permite que “o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e melhorar suas capacidades gerais e segurança”.
Contexto
O que isso significa para a OpenAI
Com a possibilidade de bloquear o bot responsável por coletar atividades dos usuários, a OpenAI pode ficar sem esses dados.
Recentemente, a empresa se reuniu com o governo dos Estados Unidos para desenvolver sistema que aplicaria marca d’água em conteúdos gerados por IA. No entanto, a empresa de Sam Altman não concordou em parar de usar informações da internet para treinamento.
Fonte: Olhar Digital
Comentários