Internet Archive Wayback Machine - Read more about robots.txt
Zitat von
12. Robots.txt -- If our robot crawler is forbidden from visiting a site, we can't archive it.
...13. Some sites are not available because of Robots.txt or other exclusions.
What does that mean?
The Standard for Robot Exclusion (SRE) is a means by which web site owners can instruct automated systems not to crawl their sites. Web site owners can specify files or directories that are allowed or disallowed from a crawl, and they can even create specific rules for different automated crawlers. All of this information is contained in a file called robots.txt. While robots.txt has been adopted as the universal standard for robot exclusion, compliance with robots.txt is strictly voluntary. In fact most web sites do not have a robots.txt file, and many web crawlers are not programmed to obey the instructions anyway. However, Alexa, the company that crawls the web for the Internet Archive, does respect robots.txt instructions, and even does so retroactively. If a web site owner ever decides he / she prefers not to have a web crawler visiting his / her files and sets up robots.txt on the site, the Alexa crawlers will stop visiting those files and mark all files previously gathered as unavailable. This means that sometimes, while using the Internet Archive Wayback Machine, you may find a site that is unavailable due to robots.txt or other exclusions. Other exclusions? Yes, sometimes a web site owner will contact us directly and ask us to stop crawling or archiving a site. We comply with these requests.
Zwar stoppt die Internet Archive Wayback Machine eine Archivierung, wenn sie auf entsprechende Einträge in der robots.txt trifft,
Beispiel von oben:
Die robots.txt dieser Seite enthält folgende Einträge:….org/robots.txt
User-agent: *
Disallow: /error/
Disallow: /temp/
Disallow: /projects/qmax/
Disallow: /projects/mozilla/browser/
und bei der Internet Archive Wayback Machine kann man auch Einträge nachträglich aus deren Archiv entfernen lassen,
Es richten sich also nicht alle Crawler (Robots) von Suchmaschinen/Webverzeichnissen/Archiven nach den Vorgaben in der Datei robots.txt sondern handeln durch die Archivierung trotz entsprechender Einträge in die Datei robots.txt mE. gegen den erklärten Willen von Seitenbetreibern.
Dies sollte, falls es keine einheitliche internationale Richtlinie gibt, schleunigst geändert werden.
Nicht jeder hat Zeit, Geld und Lust, Inhalte von Internetseiten, die er nicht in Archiven aufgenommen haben will, aufwändig zu verschlüsseln und/oder mit Passwort zu versehen, zumal dann diese auch nicht mehr frei zugänglich wären.
Auf Heise (oder irgend wo anders im Internet, hab' ich leider nicht gebookmarked) wurde auch schon einmal angesprochen, daß durchaus nicht alle Usenet-Nutzer mit der Archivierung ihrer Beiträge bei Google einverstanden waren.
[Blockierte Grafik:]
Gruß, gammaburst