Il file robots.txt è una componente cruciale della gestione di un sito web, in particolare per l'ottimizzazione per i motori di ricerca (SEO) e per il controllo di come i crawler web interagiscono con un sito. È un file di testo semplice situato nella root di un dominio (es. https://www.example.com/robots.txt). Questo file aderisce al Robots Exclusion Protocol (REP), uno standard che detta come i robot web, principalmente gli spider dei motori di ricerca, debbano comportarsi durante l'accesso a un sito web. La funzione principale di robots.txt è istruire questi crawler su quali aree, directory o file specifici del sito web è loro permesso o, più comunemente, non è permesso scansionare (crawling). Questo può essere utilizzato strategicamente per prevenire l'indicizzazione di informazioni sensibili, pagine amministrative, contenuti duplicati o pagine in fase di costruzione, ottimizzando così il budget di scansione e assicurando che solo i contenuti rilevanti appaiano nei risultati dei motori di ricerca. La sintassi è semplice, tipicamente coinvolgendo direttive User-agent per indirizzare bot specifici (es. Googlebot, Bingbot, * per tutti i bot) e direttive Disallow per specificare i percorsi da escludere. È fondamentale capire che robots.txt è una direttiva, non una misura di sicurezza; mentre i crawler dei motori di ricerca reputabili rispettano queste regole, i bot malevoli possono ignorarle. Inoltre, disabilitare una URL in robots.txt impedisce la scansione ma non necessariamente l'indicizzazione se altri siti vi puntano; per un'esclusione completa dai risultati di ricerca, il tag meta noindex o l'header HTTP è la soluzione più robusta.