Allgemeines
Architekturarchive
Archivbau
Archivbibliotheken
Archive in der Zukunft
Archive von unten
Archivgeschichte
Archivpaedagogik
Archivrecht
Archivsoftware
Ausbildungsfragen
Bestandserhaltung
Bewertung
Bibliothekswesen
Bildquellen
Datenschutz
... weitere
Profil
Abmelden
Weblog abonnieren
null

 
" .... Die einfachste Form der Archivierung im Netz ist das sogenannte Caching, bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot unleserlich.

Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht explizit unterbindet. Festgelegt wird dies in der sogenannten robots.txt-Datei. Dieses kleine Textfile bestimmt, was Suchroboter (Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das genauso wie Bing oder Yahoo.

Internet Archive

In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE" integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich angeführt.

Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große Projekte wie das Internet Archive (IA) ausbremst, das versucht, ein möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching durch Google verhindern, die Archivierung durch das Internet Archive aber beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur den Google-Roboter aussperren, die Technik des IA aber durchlassen.

Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen, das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen), ist auch das ein Weg, historische Inhalte im Netz zu tilgen.

Öffentlich-rechtlicher Sonderweg

Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt.

Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten, möchten da nicht mitspielen. Projekte wie Depub.org versuchen sich deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz potenzieller Urheberrechtsverletzungen."

Quelle: Ben Schwan, TAZ, 5.4.11

(T)
Bernd (Gast) meinte am 2011/04/08 23:51:
Ebenso potentiell
als ob Kahle die Leute fragen würde, ob er den Inhalt speichern darf oder nicht ... 
 

twoday.net AGB

xml version of this page

powered by Antville powered by Helma