Em um anúncio recente, o Google revelou uma nova funcionalidade que oferece aos editores de websites a opção de evitar que seus dados sejam utilizados para treinar os modelos de inteligência artificial (IA) da empresa, ainda permanecendo acessíveis por meio da pesquisa do Google.

Essa nova ferramenta, denominada Google-Extended, permite que os sites continuem sendo rastreados e indexados por rastreadores como o Googlebot, enquanto evitam que seus dados sejam usados para treinar os modelos de IA atuais e futuros da empresa.

Leia mais:

De acordo com a empresa, o Google-Extended permitirá que os editores “controlem se seus sites ajudam a melhorar as APIs generativas Bard e Vertex AI”, acrescentando que os editores podem usar o interruptor para “controlar o acesso ao conteúdo em um site”. Em julho, o Google confirmou que está treinando seu chatbot de IA, chamado Bard, com dados publicamente disponíveis coletados da web.

A funcionalidade Google-Extended está disponível por meio do arquivo robots.txt, também conhecido como o arquivo de texto que informa aos rastreadores da web se eles podem acessar determinados sites. O Google observa que, à medida que as aplicações de IA se expandem, continuará a explorar “abordagens adicionais legíveis por máquina para escolha e controle dos editores da web” e que em breve terá mais informações a compartilhar.

Já muitos sites optaram por bloquear o rastreador da web que a OpenAI utiliza para coletar dados e treinar o ChatGPT, incluindo The New York Times, CNN, Reuters e Medium. No entanto, surgiram preocupações sobre como bloquear o Google.

Afinal, os sites não podem bloquear completamente os rastreadores do Google, caso contrário, não serão indexados nas buscas. Isso levou alguns sites, como o The New York Times, a bloquear legalmente o Google, atualizando seus termos de serviço para proibir que empresas utilizem seu conteúdo para treinar IA.