Archivalia: Webarchivierung

Webarchivierung

Scott G. Ainsworth, Ahmed AlSum, Hany SalahEldeen, Michele C. Weigle, Michael L. Nelson: How Much of the Web Is Archived?

"ABSTRACT
The Memento Project’s archive access additions to HTTP have enabled development of new web archive access user interfaces. After experiencing this web time travel, the inevitable question that comes to mind is “How much of the Web is archived?” This question is studied by approximating the Web via sampling URIs from DMOZ, Delicious, Bitly, and search engine indexes and measuring number of archive copies available in various public web archives. The results
indicate that 35%–90% of URIs have at least one archived copy, 17%–49% have two to five copies, 1%–8% have six to ten copies, and 8%–63% at least ten copies. The number of URI copies varies as a function of time, but only 14.6–31.3% of URIs are archived more than once per month. .....
CONCLUSIONS
Although our research shows 35–90% of public URIs have at least one memento, coverage is inconsistent and appears dependent on several factors. Human desire for URI publicity appears to be a major factor as shown by the relatively high DMOZ and Delicious archival rates. Search engine discoverability is the next most important factor followed by explicit archiving. The best overall coverage is provided by the Internet Archive. The search engines follow, but only for very recent mementos. The specialized archives provide good coverage for the URIs they cover (but only for the URIs they cover).
Future work will include study of the relationship between the rate of change of the URI and the rate of the archiving process. This work has been done on a general sample of URIs. In future work, archived URIs will be studied based on specific languages beyond English."
in: JCDL’11, June 13–17, 2011, Ottawa, Ontario, Canada.

Link to PDF

Wolf Thomas - am Sonntag, 31. Juli 2011, 20:32 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

International internet preservation consortium

Wolf Thomas - am Mittwoch, 20. Juli 2011, 19:50 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

Linterweb verwaltet die automatische Archivierung der externen Weblinks der rumänischsprachigen Wikipedia

http://blog.wikiwix.com/de/2011/07/08/linterweb-verwaltet-die-automatische-archivierung-der-externen-weblinks-der-rumanischsprachigen-wikipedia/

KlausGraf - am Samstag, 9. Juli 2011, 15:54 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

"Collect now – Ask later why?!" - Webseitenarchivierung

Link zu einem Bericht von Tobias Beinert (Bayerische Staatsbibliothek), Sabine Schrimpf (Deutsche Nationalbibliothek), Stefan Wolf
(Bibliotheksservice-Zentrum Baden-Württemberg) über ein nestor-Expertengespräch zur Archivierung von Websites im
deutschsprachigen Raum.

Wolf Thomas - am Dienstag, 7. Juni 2011, 20:03 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

Gildas Illien: "Une histoire politique de l'archivage du web Le consortium international pour la préservation de l'Internet"

" .... Conclusion

Au terme de ce récit, que retenir de l’expérience de l’IIPC ? La sociologie des organisations nous enseigne que les intentions initiales d’une organisation se réalisent rarement. En réalité, ce qu’elles produisent est le fruit d’une conjonction de facteurs internes (valeurs, croyances et interactions individuelles des acteurs) et externes (hasards, accidents, opportunités). La brève histoire de l’IIPC confirme cette analyse. Ce qui est néanmoins remarquable, et à porter au crédit des personnalités à l’origine de cette aventure, c’est qu’elles avaient dès le départ identifié les grands sujets mais aussi les points de tension qui allaient déterminer toute sa dynamique d’innovation. Essayons d’en tirer quelques enseignements utiles pour le développement de la coopération internationale dans le domaine numérique.
Dans le domaine des bibliothèques numériques, le développement logiciel est le nerf de la guerre

C’est peut-être une évidence, mais il est bon de la rappeler : ce n’est pas parce qu’il est gratuit qu’un logiciel libre ne coûte pas cher. Dans les activités du patrimoine, vouées par définition à fonctionner sur un temps long, il est encore plus dangereux qu’ailleurs d’être tributaire de logiciels propriétaires. Néanmoins, le recours à l’open source implique de disposer de moyens informatiques conséquents, et d’accepter en outre de contribuer ponctuellement à des développements qui ne répondent pas aux priorités immédiates de l’établissement. À la place du paiement de licences, il faut impérativement prévoir du temps de travail d’ingénieur dédié au développement (distinct du temps de travail consacré aux opérations de production), ainsi que de certains déplacements à l’étranger. La coopération internationale offre des possibilités de mutualisation des charges de l’open source qui sont réellement intéressantes. Mais, pour que ce calcul soit rentable, il faut que le développement s’appuie sur une communauté d’utilisateurs assez nombreuse et assez active. C’est un peu toute la différence entre la poignée de développeurs qui a inventé le robot Heritrix et l’immense communauté qui maintient le navigateur Firefox.
La mixité et l’organisation interne des communautés numériques déterminent leurs chances de réussite

Pour que les bibliothèques s’emparent durablement d’un défi technique et se donnent les moyens de le relever, il est nécessaire que des décideurs, des bibliothécaires et des usagers se mobilisent dès le départ au côté des experts techniques afin que les problèmes soulevés fassent sens pour l’ensemble des acteurs potentiellement impactés par l’innovation – et susceptibles de la mettre en œuvre ensuite. Sans cette alliance objective et cet accompagnement métier de l’expertise, la portée politique de l’innovation technologique ne sera pas comprise assez tôt. La construction d’une relation de confiance entre ces familles professionnelles est toutefois la chose la plus difficile à réaliser. Si la structure de l’organisation enferme les experts, elle les étouffera et, avec eux, toutes les forces innovantes. Si, au contraire, elle les laisse inventer en orbite, trop à l’écart des contraintes documentaires, humaines et économiques, l’innovation ne trouvera pas non plus le chemin de la production.
La question de la taille et du champ de l’organisation est déterminante

Trop petite, confinée à un seul aspect du problème, ou à une seule région du monde, une organisation n’aura ni l’audience ni la taille critique nécessaires à sa survie. Trop grande, trop ambitieuse, elle aura à embrasser trop de problèmes pour en résoudre aucun correctement. De ce point de vue, la culture professionnelle des Américains, moins holistique et plus pragmatique que celle des Français, peut être une source d’inspiration : plutôt que de s’attaquer en permanence à tous les problèmes dans leur globalité sans en avoir les moyens, il vaut mieux couper le travail en plus petits morceaux (les « work packages »), les répartir entre acteurs autonomes, et phaser leur réalisation dans le temps, à raison d’un ou deux grands objectifs par an. De la même façon, on préférera des organisations souples et évolutives, affranchies de contraintes administratives ou salariales potentiellement paralysantes dans le cas où le besoin de s’adapter rapidement à un environnement en mutation se ferait sentir. De ce point de vue, le modèle de l’IIPC, qui conduit à revisiter les modalités de gouvernance tous les trois ans, est intéressant, puisqu’il permet d’envisager assez facilement toutes sortes d’évolutions. Y compris sa propre dissolution, le jour où l’archivage du web aura été banalisé et ne justifiera plus l’existence d’une entité distincte des autres organisations et associations de bibliothèques. Une organisation n’est pas une fin en soi. "

Quelle: Illien, Gildas, « Une histoire politique de l'archivage du web », BBF, 2011, n° 2, p. 60-68
[en ligne] Consulté le 02 juin 2011, Link

(T)

Wolf Thomas - am Donnerstag, 2. Juni 2011, 11:59 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

Eher „analoges Verzeihen“ statt „digitales Vergessen“

http://futurezone.at/meinung/3022-das-internet-ist-ein-vergesslicher-faelscher.php

Die Diskussion um den „digitalen Radiergummi“ hat einmal öfter den Satz „Das Internet vergisst nicht“ aus der Mottenkiste der populären Irrtümer hervorgekramt. Natürlich vergisst das Netz.

Sehr richtig.

Zur Autorin Bettina Hammer geborene Winsemann (Künstlername Twister):

http://de.wikipedia.org/wiki/Bettina_Hammer

(T)

KlausGraf - am Sonntag, 8. Mai 2011, 15:12 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

Die neueste Hysterie: Das Internet vergisst nichts mehr

Das Internet hat ein gnadenloses Gedächtnis: Sein Wissen über die Menschen hält ewig, meint Karsten Polke-Majewski in der ZEIT, die sich schämen sollte, solchen Unsinn zu drucken:

http://www.zeit.de/2011/15/Internet-Gedaechtnis?page=all

Für alle, die hochwertigen wissenschaftlichen Ressourcen nachjagen, die aus dem Netz verschwunden sind, weil z.B. Thaller zu viel zu tun hat (hunderte digitalisierte tolle Drucke und Handschriften der Lutherhalle Wittenberg

http://luther.hki.uni-koeln.de/luther/pages/sucheDrucke.html seit Anfang 2010 offline) ist das reiner Hohn. Vom öffentlichrechtlich erzwungenen Depublizieren der Rundfunkanstalten ganz zu schweigen.

(T)

KlausGraf - am Mittwoch, 13. April 2011, 09:45 - Rubrik: Webarchivierung

5 Kommentare - Kommentar verfassen

"Das verschwundene Web"

" .... Die einfachste Form der Archivierung im Netz ist das sogenannte Caching, bei dem Suchmaschinen beim Durchforsten des Netzes Kopien von Seiten erfassen und diese dann mittels Links in ihren Suchergebnissen verfügbar machen. Dabei werden meist Texte erfasst, keine Bilder; können diese nicht mehr vom Originalort nachgeladen werden, weisen die gespeicherten Seiten an diesen Stellen Lücken auf. Auf diese Weise wird so manches Angebot unleserlich.

Aber auch dieses Caching erfolgt nur, wenn der Seitenbetreiber es nicht explizit unterbindet. Festgelegt wird dies in der sogenannten robots.txt-Datei. Dieses kleine Textfile bestimmt, was Suchroboter (Robots) dürfen und was nicht. Die enthaltenen Vorgaben werden von den meisten Suchmaschinenbetreibern ausgelesen und beachtet - Google tut das genauso wie Bing oder Yahoo.

Internet Archive

In der robots.txt-Datei lässt sich beispielsweise die Angabe "NOARCHIVE" integrieren, das das Caching grundsätzlich untersagt. Der Seitenbetreiber kann dabei festlegen, ob dies nur für bestimmte Verzeichnisse oder Seiten oder für den gesamten Server gelten soll. So manche Nachrichtenseite setzt mittlerweile auf "NOARCHIVE" - aus den unterschiedlichen Gründen. Manchmal möchte ein Anbieter nicht, dass Nutzer ältere Versionen seiner Informationen abfragen können, manchmal wird befürchtet, dass Nutzer auf Caching-Versionen zugreifen, die dann keine bezahlte Werbung mehr enthalten. Auch die Beschränkung der Macht Googles wird gelegentlich angeführt.

Die Folgen können sein, dass ein restriktives "NOARCHIVE" auch große Projekte wie das Internet Archive (IA) ausbremst, das versucht, ein möglichst akkurates Bild der Netzentwicklung zu liefern - von den Anfängen des Web seit 1993 bis zum heutigen Tag. Wer beispielsweise ein Caching durch Google verhindern, die Archivierung durch das Internet Archive aber beibehalten will, kann auch das tun: Dazu muss er in seiner robots.txt nur den Google-Roboter aussperren, die Technik des IA aber durchlassen.

Die robots.txt-Datei bietet auch sonst einige Möglichkeiten, Daten aus dem Netz verschwinden zu lassen. So lässt sich hier ein "NOINDEX"-Tag setzen, das Suchmaschinen verbietet, ein Angebot überhaupt in seinen Index aufzunehmen. Da Webserver ohne Suchmaschinenerfassung im Netz so gut wie nicht existieren (nur Direktlinks würden die Auffindbarkeit ermöglichen), ist auch das ein Weg, historische Inhalte im Netz zu tilgen.

Öffentlich-rechtlicher Sonderweg

Bei den öffentlich-rechtlichen Sendern in Deutschland hat man mit dem Thema seit dem vergangenen Jahr intensiv zu tun. Da nach dem aktuellen Staatsvertrag viele Inhalte nur noch eine bestimmte Zeit online bleiben dürfen, musste eine eigene "Depublizierungs-Infrastruktur" geschaffen werden, die Inhalte löscht und, wenn möglich, auch aus Suchmaschinen tilgt.

Netzbürger, die ja mit ihren GEZ-Gebühren für die Inhalte bezahlt hatten, möchten da nicht mitspielen. Projekte wie Depub.org versuchen sich deshalb mit einer Gegenstrategie: Sie archivieren einfach selbst - trotz potenzieller Urheberrechtsverletzungen."
Quelle: Ben Schwan, TAZ, 5.4.11

(T)

Wolf Thomas - am Dienstag, 5. April 2011, 22:03 - Rubrik: Webarchivierung

1 Kommentar - Kommentar verfassen

Usenet: Das frühe Internet setzt sich ins digitale Nirwana ab

Bewertet Heise das Aus für das Usenet bei der Telekom:

http://www.heise.de/newsticker/meldung/Usenet-Aus-bei-der-Deutschen-Telekom-1220735.html

Siehe auch
http://www.heise.de/netze/meldung/Usenet-Keimzelle-geht-vom-Netz-1004201.html

Im Jahr 1979 hatten die Duke-Absolventen Tom Truscott und Jim Ellis in Zusammenarbeit mit Steve Bellovin von der University of North Carolina zwei Unix-Server mit einem einfachen Programm verbunden, das über eine Modemverbindung Nachrichten und Daten per UUCP austauscht, und so das Usenet (User Network) aus der Taufe gehoben.

Ich selbst habe schon lange nichts mehr im Usenet geschrieben:

https://groups.google.com/groups/search?hl=de&q=%22klaus+graf%22

(T)

KlausGraf - am Sonntag, 3. April 2011, 18:57 - Rubrik: Webarchivierung

noch kein Kommentar - Kommentar verfassen

Wikipledia-Liste zu Webarchivierungsinitiativen

Sehr lückenhaft und ohne Hinweis, ob öffentlich Inhalte angeboten werden:

List of Web Archiving Initiatives
http://en.wikipedia.org/wiki/List_of_Web_Archiving_Initiatives

(T)

KlausGraf - am Donnerstag, 31. März 2011, 17:38 - Rubrik: Webarchivierung

4 Kommentare - Kommentar verfassen

nächste Seite