O arquivo 'robots.txt' é um arquivo de texto que os webmasters colocam no diretório raiz de seu servidor web para se comunicar com robôs da web, como rastreadores e spiders (como Googlebot ou Bingbot). É o principal mecanismo para implementar o Protocolo de Exclusão de Robôs (REP - Robots Exclusion Protocol). Tecnicamente, este arquivo não restringe o acesso ao conteúdo; em vez disso, serve como um conjunto de diretrizes que bots bem-comportados devem seguir. Ele especifica quais partes do website o crawler está proibido de acessar (usando a diretiva 'Disallow') e, opcionalmente, quais partes eles têm permissão para acessar (diretiva 'Allow'). Ele também pode especificar a localização de um mapa do site usando a diretiva 'Sitemap'. Crucialmente, o 'robots.txt' é publicamente acessível, o que significa que bots maliciosos ou usuários determinados ainda podem acessar áreas proibidas. Portanto, ele nunca deve ser usado para proteger informações sensíveis, mas sim apenas para gerenciar a indexação de mecanismos de busca e a carga de tráfego.