Robots.txt

Robots.txt to plik tekstowy umieszczany w głównym katalogu domeny, pełniący funkcję instrukcji dla robotów indeksujących wyszukiwarek (takich jak Googlebot). Działa w oparciu o Robots Exclusion Protocol i służy przede wszystkim do zarządzania budżetem indeksowania (crawl budget) poprzez wskazywanie automatom, których zasobów lub sekcji witryny nie powinny skanować.

Plik ten wykorzystuje proste komendy, takie jak User-agent (adresat reguły) oraz Disallow (zakaz dostępu), a także może wskazywać lokalizację mapy witryny (Sitemap). Należy pamiętać, że robots.txt jest dyrektywą blokującą skanowanie, a nie twardym zabezpieczeniem czy metodą na usuwanie stron z indeksu – zablokowana w nim podstrona wciąż może pojawić się w wynikach wyszukiwania, jeśli prowadzą do niej linki zewnętrzne.