Die Datei „robots.txt“ ist eine Textdatei, die auf Webservern platziert wird, um Webcrawlern oder Suchmaschinen-Robotern Anweisungen zu geben, welche Teile einer Website sie crawlen oder indexieren dürfen. Sie ist Teil des „Robots Exclusion Protocol“ und wird im Stammverzeichnis einer Website abgelegt.
Die Datei enthält Regeln, die durch „User-agent“ und „Disallow“ Direktiven spezifiziert werden. „User-agent“ gibt an, für welchen Crawler die Regel gilt, während „Disallow“ die URLs auflistet, die nicht gecrawlt werden sollen. Eine leere „Disallow“-Zeile erlaubt den vollständigen Zugriff. Die Datei kann auch „Allow“ Direktiven enthalten, um spezifische Unterverzeichnisse freizugeben, sowie „Sitemap“ Einträge, um die Lage von XML-Sitemaps anzugeben. Obwohl „robots.txt“ eine weit verbreitete Methode zur Steuerung des Crawlings ist, handelt es sich um eine freiwillige Richtlinie, die von Crawlern respektiert werden sollte, aber nicht immer wird. Sie ist nützlich, um Serverressourcen zu schonen und sensible oder irrelevante Inhalte von der Indexierung auszuschließen.
Schreibe einen Kommentar