El archivo 'robots.txt' es un archivo de texto que los administradores web colocan en el directorio raíz de su servidor web para comunicarse con los robots web, como los rastreadores web y las arañas (como Googlebot o Bingbot). Es el mecanismo principal para implementar el Protocolo de Exclusión de Robots (REP, por sus siglas en inglés). Técnicamente, este archivo no restringe el acceso al contenido; más bien, sirve como un conjunto de directrices que los bots bien comportados deben seguir. Especifica qué partes del sitio web se le prohíbe acceder al rastreador (usando la directiva 'Disallow') y, opcionalmente, qué partes tienen permitido acceder (directiva 'Allow'). También puede especificar la ubicación de un mapa del sitio utilizando la directiva 'Sitemap'. Fundamentalmente, 'robots.txt' es accesible públicamente, lo que significa que los bots maliciosos o los usuarios decididos aún pueden acceder a las áreas prohibidas. Por lo tanto, nunca debe usarse para proteger información sensible, sino solo para gestionar la indexación por parte de los motores de búsqueda y la carga del tráfico.