Archivalia: Retrodigitalisierung und eHumanities

Retrodigitalisierung und eHumanities

Beitrag zur Kölner Tagung
http://digitalewissenschaft.files.wordpress.com/2010/09/diwi-programm.pdf

Dank Google Book Search hat der Bestand gemeinfreier Quellen und
Fachliteratur, die kostenfrei im Internet konsultierbar sind, in den
letzten Jahren geradezu dramatisch zugenommen. Die meisten
Schlüsselwerke des 19. Jahrhunderts, die in den Geisteswissenschaften nach wie vor von großer Bedeutung sind, liegen inzwischen digitalisiert vor.

Zugleich besteht ein eklatantes Defizit im Nachweis
der Digitalisate. Von einer eklatanten Steuergeldverschwendung wie dem "Zentralen Verzeichnis Digitalisierter Drucke" http://www.zvdd.de/ ist schon deshalb keine wirksame Besserung zu erwarten, weil das Internet global sind und für die deutschsprachige Forschung wichtige Bücher auch außerhalb des deutschsprachigen Raums digitalisiert werden.

Siehe etwa
http://de.wikisource.org/wiki/Digitale_Sammlungen

Und es besteht ein Defizit in der Vermittlung der Informationskompetenz an die Wissenschaftler, diese Digitalisate (auch von unselbständiger Literatur) aufzuspüren
und sachgerecht zu nutzen.

Siehe etwa zur Nutzung eines US-Proxy
http://www.youtube.com/watch?v=RcszAy9JoOY
http://de.wikisource.org/wiki/Wikisource:GBS

Für mich besteht eine klare Zielvorgabe: Jede wissenschaftliche Arbeit - ob Buch oder Aufsatz - muss "Open Access" im Internet vorliegen. Und jeder Nachweis in ihr - ob er sich auf Quellen oder Literatur bezieht - muss mit einem Link zu einer Open-Access-Version versehen sein.

Daraus ergeben sich eine Reihe von Konsequenzen.

1. Das auf den Hochschulschriftenservern gängige Einmauern von Wissenschaft in PDFs ist schlecht.

Kein Link kann in einem PDF so bequem angeklickt werden wie in einem HTML-Dokument. Für Quellenkunden, Bibliographien usw., die Links zu Retrodigitalisaten nachweisen müssen, kommt PDF als einzige Darbietungsform nicht in Betracht.

2. Die Publikationen müssen dynamische Dokumente sein, was eine Versionsverwaltung voraussetzt.

Ständig kommen neue Digitalisate hinzu, die zu verlinken wären. Außerdem können ständig Nachträge eingearbeitet werden.

Als funktionierendes Beispiel einer Versionsverwaltung kann die Versionsgeschichte der Wikipedia genannt werden.

Auch hier hat HTML gegenüber PDF eindeutig die Nase vorn.

3. Gäbe eines einen universellen Digitalisat-Resolver in Form von Open Data, so könnten neu aufgefundene Digitalisate oder Open-Access-Publikationen automatisiert eingetragen werden. Findet der Resolver eine freie Publikation, wird diese fest verlinkt.

(Weiterführung einer früheren Idee: http://archiv.twoday.net/stories/6258641/ )

Mit der von dem Resolver unterhaltenen freien Datenbank hätten wir auch das Nachweisproblem der Digitalisate gelöst (sieht man von den Metadaten-Problemen ab, aber dafür gäbe es ja nun auch Werkzeuge).

(Und die Inhalte der Datenbank könnten dann auch in OPACs integriert bzw. von ihnen aus durchsucht werden. Zum Problem hybrider Publikationen in Bibliothekskatalogen siehe

http://archiv.twoday.net/stories/6175013/ )

Jeder Aufsatz und jedes Buch, das frei im Netz zugänglich ist, wäre Teil dieser Datenbank. Es versteht sich von selbst, dass bei älteren Zeitschriften, die von Google digitalisiert wurden, Erschließungsdaten auf Artikelebene von freien Projekten wie Wikisource zu erheben wären:

http://de.wikisource.org/wiki/Annalen_des_Historischen_Vereins_f%C3%BCr_den_Niederrhein

PLoS One und viele andere Fachzeitschriften bieten in ihren HTML-Darstellungen einen Service, der in der PLoS "Find this article online" heißt. Der Link führt hier zur Abfrage von drei Datenbanken:

CrossRef
PubMed/NCBI
Google Scholar

Ein vergleichbarer Resolver für geisteswissenschaftliche Retrodigitalisate müsste wohl weit über 100 verschiedene Quellen absuchen. Man könnte sich natürlich auf die wichtigsten Quellen (Google Books, Internet Archive, BASE, OAIster/Worldcat) beschränken.

Entscheidend ist aber - und das entscheidet den Digitalisat-Resolver von den bisherigen Linkresolvern - ein erfolgreiches Resultat der Suche sowohl in die zentrale Datenbank als auch in alle mit ihr verknüpften Dokumente eingetragen wird.

Es ist nicht selten, dass es zu einem Buch mehrere Digitalisate gibt. Eingetragen werden könnte im zitierenden Aufsatz dann ein Link zur Datenbank oder dasjenige Digitalisat, dem ein Bewertungsprozess Priorität verleiht (z.B. MDZ immer besser als Google).

Selbstverständlich kann man das Ganze zu einem umfassenden Zitationsindex ausbauen, indem man an jedes retrodigitalisiertes Dokument in der Digitalisat-Datenbank als Metadaten die in ihm vorkommenden Literaturzitate anhängt. ISI läßt grüßen!

4. Zu jeder geisteswissenschaftlichen Publikation müssen auch die dazugehörigen Forschungsdaten online gestellt werden, soweit gemeinfrei.

Bei Archivgut oder Handschriften oder sehr raren Drucken besteht natürlich das Problem des Copyfraud, dass Institutionen nicht mit einer Internetpublikation einverstanden sind. Siehe dazu

http://archiv.twoday.net/search?q=copyfraud

Vorhandene Digitalisate sind - siehe Punkt 3 - nachzuweisen; Digitalisate, die im Rahmen eines Projekts erworben oder durch Scannen von Kopien erstellt werden, müssen allgemein zugänglich gemacht werden. Die Datensammlung des Projekts verschiebt sich spätestens nach Abschluss des Publikationsprozesses ins Web.

Ein PDF z.B. ins Internet Archive hochzuladen, bedeutet keinen wirklichen Mehraufwand.

Auf diese Weise können ständig Lücken in den digitalisierten Beständen geschlossen werden.

Was an gemeinfreien Unterlagen in einem öffentlich geförderten Projekt kopiert wird, muss gescannt werden und was digital vorliegt, muss öffentlich zugänglich gemacht werden.

Natürlich müssen Anreize für diese Änderung der Arbeitsweise geschaffen werden.

5. Wir brauchen Bibliographien und Quellenkunden, die Digitalisate (auch von unselbständiger Literatur) nachweisen und als Grundlage für die Schließung von Lücken in digitalisierten Beständen dienen.

Eigene Experimente entstammen der Mediävistik
(Geschichtswissenschaft, Germanistik, Mittellatein) in Form einer
überlieferungsgeschichtlichen Quellenkunde der Burgunderkriege

http://de.wikisource.org/wiki/Burgunderkriege

und der Erzählforschung (Volkskunde, Literaturwissenschaften,
Geschichtswissenschaft):

http://de.wikisource.org/wiki/Die_Mordgrube_zu_Freiberg

Sie zeigen, was im Bereich solcher Fragestellungen bereits an Digitalisaten vorhanden ist - mehr, als man denkt!

Eine unbürokratische Finanzierung von Digitalisierungen zum Lücken-Schließen für Forschergruppen oder einzelne Forscher, die diese allenfalls mit einer geringen Schutzgebühr belastet, wäre sinnvoller als die üblichen Digitalisierungsprojekte, die nicht selten vor allem die Kassen der beteiligten Firmen klingeln lassen.

Vorbildlich ist die Praxis der ULB Düsseldorf, die für ihre registrierten Benutzer gemeinfreie Literatur kostenlos digitalisiert.

Fazit: Wir sollten nach den Sternen greifen. Alles andere wäre ein Rückschritt.

Update: Video http://archiv.twoday.net/stories/8393712/

http://archiv.twoday.net/stories/64978141/

KlausGraf - am Montag, 20. September 2010, 02:16 - Rubrik: Web 2.0

Kommentar verfassen