O mundo dos robots.txt
Como sites implementam regras para evitar que empresas usem seu conteúdo para treinar inteligência artificial
Qualquer website pode indicar suas regras acerca de acessos automatizados a partir de um arquivo simples de texto colocado no diretório central, chamado robots.txt.
Esse arquivo foi inicialmente utilizado para indicar se um website dá ou não permissão para indexação de mecanismos de buscas, mas pode servir para qualquer crawler (bots que entram num site em busca de conteúdo).
Saiba mais
- Diretriz, não barreira técnica: O robots.txt é uma recomendação e não uma medida de segurança. Ele depende da cooperação voluntária dos bots para ser respeitado.
- Desrespeito por bots maliciosos ou IA: Nos últimos anos, surgiu uma preocupação crescente, especialmente por parte de veículos jornalísticos, sobre o fato de que empresas de inteligência artificial e crawlers não autorizados têm ignorado essas diretrizes.
- Como exemplo, o arquivo robots.txt do Núcleo está neste link.
O criador desse Xarta permitiu sua reprodução via Licença Creative Commons 4.0. Acesse esta página para utilizar o código de embed.