Il file 'robots.txt' è un file di testo che i webmaster collocano nella directory radice del loro server web per comunicare con i web robot, come i crawler e gli spider web (ad esempio Googlebot o Bingbot). Esso costituisce il meccanismo principale per implementare il Robots Exclusion Protocol (REP). Tecnicamente, questo file non restringe l'accesso al contenuto; piuttosto, funge da insieme di linee guida che i bot ben educati dovrebbero seguire. Specifica quali parti del sito web è vietato al crawler di accedere (utilizzando la direttiva 'Disallow') e, facoltativamente, quali parti è loro permesso di accedere (direttiva 'Allow'). Può anche specificare la posizione di una mappa del sito utilizzando la direttiva 'Sitemap'. Fondamentalmente, 'robots.txt' è pubblicamente accessibile, il che significa che bot malevoli o utenti determinati possono comunque accedere alle aree vietate. Pertanto, non dovrebbe mai essere utilizzato per proteggere informazioni sensibili, ma solo per gestire l'indicizzazione da parte dei motori di ricerca e il carico del traffico. La sua efficacia dipende interamente dalla cooperazione dei crawler che lo rispettano.