Le fichier 'robots.txt' est un fichier texte que les webmasters placent dans le répertoire racine de leur serveur web pour communiquer avec les robots web, tels que les robots d'exploration (crawlers) et les araignées (spiders) web (comme Googlebot ou Bingbot). C'est le mécanisme principal pour la mise en œuvre du Protocole d'Exclusion des Robots (REP). Ce fichier ne restreint pas techniquement l'accès au contenu ; il sert plutôt d'ensemble de directives que les robots bienveillants sont censés suivre. Il spécifie quelles parties du site web l'explorateur n'est pas autorisé à accéder (en utilisant la directive 'Disallow') et, facultativement, quelles parties ils sont autorisés à accéder (directive 'Allow'). Il peut également spécifier l'emplacement d'un plan de site (sitemap) en utilisant la directive 'Sitemap'. De manière cruciale, 'robots.txt' est publiquement accessible, ce qui signifie que les robots malveillants ou les utilisateurs déterminés peuvent toujours accéder aux zones interdites. Par conséquent, il ne doit jamais être utilisé pour sécuriser des informations sensibles, mais uniquement pour gérer l'indexation par les moteurs de recherche et la charge de trafic. Il est essentiel de comprendre que le 'robots.txt' est une suggestion, non une contrainte technique, et que son objectif principal est d'optimiser la façon dont les moteurs de recherche interagissent avec un site, améliorant ainsi la gestion des ressources du serveur et la pertinence des résultats de recherche. Il contribue à éviter la surcharge des serveurs et à diriger les robots vers le contenu le plus pertinent.