A OpenAI, criadora do ChatGPT, lançou um novo web crawler chamado GPTBot, projetado para percorrer a internet e coletar informações para treinar seus modelos de inteligência artificial (IA). No entanto, uma única linha de código foi descoberta para impedir o acesso do crawler aos dados de um site, destacando a complexa relação entre rastreio de dados, privacidade e preocupações de direitos autorais.
O que é um web crawler?
OpenAI ensina como impedir o GPTBot de coletar dados
A implantação do GPTBot e sua suscetibilidade ao bloqueio foram relatadas por várias publicações, incluindo o Search Engine Journal, na segunda-feira. Este web crawler funciona vasculhando sites em busca de dados, semelhante ao funcionamento dos motores de busca como o Google.
Embora tal rastreamento seja essencial para o treinamento de modelos de IA, isso gerou debates sobre privacidade e uso não autorizado de dados.
A OpenAI tomou uma medida única ao não apenas introduzir o GPTBot, mas também fornecer um método para os proprietários de sites impedirem seu acesso. Ao incorporar uma linha simples de código no arquivo “robots.txt” de um site, os desenvolvedores podem evitar que o GPTBot colete dados de seu site.
Passo a passo para impedir acesso do GPTBot
Você pode conferir abaixo como impedir o acesso do web crawler do ChatGPT ao seu site. As informações foram retiradas do site da OpenAI, e podem ser encontradas (em inglês) aqui.
- GPTBot
“O GPTBot é um rastreador da web da OpenAI e pode ser identificado pelo seguinte agente do usuário e sequência”, afirma a OpenAI em seu site.
Token do agente do usuário: GPTBot
String completa do agente do usuário:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot) - Uso dos dados coletados
A OpenAI também explica em seu site como usa os dados coletados: “Páginas da web rastreadas com o agente do usuário GPTBot podem ser potencialmente usadas para melhorar modelos futuros e são filtradas para remover fontes que requerem acesso através de paywall, que são conhecidas por coletar informações de identificação pessoal (PII) ou que possuam texto que viole nossas políticas. Permitir que o GPTBot acesse seu site pode ajudar os modelos de IA a se tornarem mais precisos e a melhorar suas capacidades gerais e segurança.”
- Como proibir o GPTBot
Para proibir o acesso do GPTBot ao seu site, você pode adicionar o GPTBot ao arquivo robots.txt do seu site:
User-agent: GPTBot
Disallow: / - Como permitir acesso personalizado
A OpenAI também ensina como permitir que o GPTBot acesse apenas “partes específicas do seu site”, adicionando o token do GPTBot ao arquivo robots.txt de outra maneira:
User-agent: GPTBotAllow: /directory-1/Disallow: /directory-2/



Comentários