O mundo dos robots.txt

Como sites implementam regras para evitar que empresas usem seu conteúdo para treinar inteligência artificial

Criado em 29.10.2024

Última atualização em 22.11.2024

Qualquer website pode indicar suas regras acerca de acessos automatizados a partir de um arquivo simples de texto colocado no diretório central, chamado robots.txt.

Esse arquivo foi inicialmente utilizado para indicar se um website dá ou não permissão para indexação de mecanismos de buscas, mas pode servir para qualquer crawler (bots que entram num site em busca de conteúdo).

Saiba mais

Diretriz, não barreira técnica: O robots.txt é uma recomendação e não uma medida de segurança. Ele depende da cooperação voluntária dos bots para ser respeitado.
Desrespeito por bots maliciosos ou IA: Nos últimos anos, surgiu uma preocupação crescente, especialmente por parte de veículos jornalísticos, sobre o fato de que empresas de inteligência artificial e crawlers não autorizados têm ignorado essas diretrizes.
Como exemplo, o arquivo robots.txt do Núcleo está neste link.

O criador desse Xarta permitiu sua reprodução via Licença Creative Commons 4.0. Acesse esta página para utilizar o código de embed.

Veja mais

Janela de Overton

A Janela de Overton é uma ferramenta analítica para avaliar quais ideias são aceitáveis de serem debatidas no meio político. Ideias e propostas variam de acordo com o caldo cultural do momento. Ideias que eram consideradas sensatas no passado, hoje em dia são consideradas completamente absurdas. A ferramenta foi concebida

O que são cassinos sociais e simuladores de apostas?

São versões "gratuitas" de jogos de azar como caça-níqueis ou roletas em que, no lugar de dinheiro real, os apostadores jogam com moedas virtuais que são compradas na plataforma ou disponibilizadas após a exibição de anúncios. Não são considerados jogos de azar, já que não há dinheiro envolvido.

O que são deepfakes?

Deepfake é uma técnica que usa inteligência artificial para clonar rostos e vozes de pessoas e aplicá-los a vídeos e fotos. Por causa dos riscos de disseminação de informações falsas, o TSE proibiu o uso de deepfakes nas eleições municipais deste ano.

O que é indexação?

Indexar conteúdo em mecanismos de busca é como organizar um imenso catálogo de informações da internet. Os mecanismos exploram e coletam dados de sites, os quais são armazenados em grandes bancos de dados, com a criação de um índice. Quando você realiza uma pesquisa usando palavras-chave, o mecanismo de busca