Archivalia: Titel des Internet Archive in BASE

Titel des Internet Archive in BASE

480.000 Dokumente

http://www.base-search.net/index.php?q=dccoll:ftinternetarch

Aber was nützt das, wenn wichtige Digitalisate fehlen?

Siehe am Beispiel Sudhoff:

http://www.archive.org/search.php?query=sudhoff%20AND%20mediatype:texts

Nichts davon in BASE!

KlausGraf - am Donnerstag, 4. März 2010, 01:48 - Rubrik: Suchen

Kommentar verfassen

Martin (Gast) meinte am 2010/03/04 08:52:

Grateful Dead

Das ist doch toll - die haben jetzt endlich auch die ganzen freien Grateful Dead Konzerte im Katalog...
http://tinyurl.com/yzddyxf

Dirk Pieper (Gast) antwortete am 2010/03/04 09:53:

Guten Morgen Herr Graf,

das Internet Archive ist ein schönes Problem für die Praxis-Probleme beim Harvesten über OAI-PMH. Als document size wird rd. 2,8 Mio. records angegeben, es kommen aber nur rd. 480.000 records über die Schnittstelle. Das ist also kein BASE-Problem, sondern ein Problem der OAI-Schnittstelle beim Internet Archive. Wir haben Kontakt mit dem dortigen Admin, vielleicht können wir das Problem lösen.

Uns ist aufgefallen, dass die Qualität der Internet-Archive-Metadaten in vielen Fällen doch eher zweifelhaft ist, siehe z.B.
http://www.base-search.net/index.php?q=11111

Von den Inhalten will ich erst gar nicht reden .... aber ich habe zufällig ein Ween-Konzert gefunden, ist ja auch nicht schlecht.

Viele Grüße
Dirk Pieper

Dirk Pieper (Gast) antwortete am 2010/03/04 10:08:

es sollte natürlich heißen ein: schönes Beispiel für die Praxis-Probleme ...

Aber mal ernsthaft: es mag ja sein, dass da wichtige Digitalisate usw. drin sind, aber der Anteil von Metadaten-Müll ist im Internet Archive doch ziemlich hoch. Den Plattenplatz kann man wohl sinnvoller für die zunehmende Anzahl vom OJS Installationen verwenden als für den Nachweis irgendwelcher Grateful Dead Konzerte.

Viele Grüße
Dirk Pieper

KlausGraf antwortete am 2010/03/04 14:29:

Was heißt: es mag ja sein?

Da Sie Bibliothekar und kein Nutzer von Büchern sind, verbitte ich mir solche Aussagen. Im Rahmen des Wikisource-Projekts werden wöchentlich dutzende Titel des Internet Archive verlinkt, vor allem die gespiegelten Google-Scans. Dass die Metadaten regelmäßig mehr als ätzend sind, kann nicht dazu führen, das Angebot zu ignorieren. Und Bibliotheken verlinken ja auch skruppellos die miesen Google-Metadaten, was bei mehrbändigen Werken dazu führt, dass über die API ein beliebiger Bandlink in den OPAC geschwemmt wird.

Ich erwarte von dem Betreiber einer wissenschaftlichen Suchmaschine, dass er eine herausragende wissenschaftliche Quelle (die mit Müll durchsetzten Digitalisate des IA) als solche identifizieren kann.

OAIster nahm wegen dem Müllproblem nur Teile des IA. Sie können an

http://www.worldcat.org/search?q=sudhoff&dblist=638&fq=dt:url+%3E+ap:%22sudhoff+karl+1853+1938%22&qt=facet_ap:

erkennen, dass die von mir monierten Sudhoff-Digitalisate sehr wohl in OAIster vorhanden waren, was ein zweifelhaftes Licht auf Ihre Harvest-Künste wirft.

Dirk Pieper (Gast) antwortete am 2010/03/04 16:40:

Lieber Herr Graf,

auch als Bibliothekar kann ich hin und wieder mal ein Buch "nutzen" ;-))

Wir ignorieren das Angebot nicht, sondern bemühen uns, das in den Index zu bekommen. Probleme beim Harvesten, schlechte Datenqualität und Beschimpfungen Ihrerseits sind dem nicht gerade förderlich.

Ich würde vom Internet Archive erwarten, dass sie über eine Set Definition die Selektion z.B. nach Digitalisaten o.ä. ermöglichen. Dann bräuchten wir nicht den ganzen Müll mit indexieren. Vielleicht hat OAIster die Daten seinerzeit auf anderem Wege bekommen? Nach rd. 2.000 geharvesteten Servern ist unsere Erfahrung jedenfalls nicht so klein, und mit "Kunst" hat das auch nicht viel zu tun.

Ihre Einschätzung, dass das IA eine herausragende wissenschaftliche Quelle sei, ist Ihnen unbenommen. Empirisch gesehen, sind die meisten records, die wie bislang Harvesten konnten, aber nun mal Müll. Und diese Aussage lasse ich mir nicht verbitten, insbesondere dann nicht, wenn man die o.g. Abfrage variiert, z.B.:

http://www.base-search.net/index.php?q=222
http://www.base-earch.net/index.php?q=2222222
http://www.base-search.net/index.php?q=3333333333333

usw. usw.

KlausGraf antwortete am 2010/03/04 17:08:

Es ist also schon Beschimpfung, wenn man

die bekannte Unfähigkeit der BASE-Macher zu thematisieren wagt? Gehen Sie einfach davon aus, dass ich weit besser als Sie den Wert und Unwert der Digitalisate des IA einzuschätzen weiß, da ich anders als Sie wissenschaftlich arbeite und mich als ausgewiesenen Experten auf dem Feld digitaler Bibliotheken sehe (was Sie, wie mir scheint, nicht sind). Und verschonen Sie bitte unsere Leser mit weiteren wortreichem Müll. Danke.

Im übrigen: Mit Sets für American, Canadian und European Libraries werden die meisten Retrodigitalisate abgedeckt.

Dirk Pieper (Gast) antwortete am 2010/03/05 14:06:

Es ist wohl offensichtlich, dass

- nur ein geringer Teil des IA wissenschaftlich relevant ist
- die Qualität der Metadaten in den meisten Fällen Müll ist
- nur ein Teil der Daten über die OAI-Schnittstelle ausgeliefert wird
- die Selektionsmöglichkeiten unklar sind

Wenn Sie das als "herausragende wissenschaftliche Quelle" bezeichnen, sind Zweifel an Ihrem Expertentum für Digitale Bibliotheken erlaubt. Des Weiteren schicke ich Ihnen gerne alle Sets, da Sie ja über die nötige Expertise verfügen, können Sie mir sicher sagen, was da wissenschaftlich relevant ist und was nicht.

Es ist weiter für jeden offensichtlich, dass wir einigen Aufwand zur Einbindung die Quelle treiben. Schade, dass Sie eher an Konfrontation statt an Kooperation interessiert sind.

KlausGraf antwortete am 2010/03/05 15:36:

Es ist offenkundig

dass Zweifel an Ihren Fähigkeiten berechtigt sind, diese Quelle auf ähnlichem Niveau wie OAIster (und ich hatte wg. dem Harvesting des IA mit Kat hagedorn Kontakt) zu harvesten. Es ist nicht meine Aufgabe, Ihnen die Sets zu benennen, was OAIster=OCLC hinkriegt, sollten Sie auch schaffen. Hier geht es einzig und allein um die Gruppe Texts

http://www.archive.org/details/texts

Müll (einschl. NS-Müll) findet sich überwiegend in der Gruppe Open Source Books, das war hier wiederholt Thema.

Ich empfehle einfach, sich mit dieser Quelle zu beschäftigen und sich nicht von irgendwelchen abseitigen Collections unter den Sets irritieren zu lassen. Vielleicht sollten Sie einfach auch einschlägige Internetquellen konsultieren?

http://de.wikisource.org/wiki/Wikisource:Internet_Archive

Ich denke, der wissenschaftliche Wert von 40.000 genuin retrodigitalisierten deutschsprachigen Büchern (wieviel hat noch gleich die UB Bielefeld digitalisiert, ich denke das kann man im Vergleich wirklich vergessen ...) ist unbestreitbar:

" * Gesamtliste einschließlich Google-Kopien (Stand 28. Februar 2010: 173,258 Titel) Sucheinschränkung: "language:ger OR language:German" Die Google-Kopien darunter sind bereits in der Übersicht vom Uploader tpb gekennzeichnet. Das Kürzel tpb ist auch zum aus- oder einschließen der Google-Kopien geeignet.

* Liste ohne Google-Kopien Zusätzliche Sucheinschränkung "NOT tpb" (Stand 28. Februar 2010: 42,564 Titel)

* Liste nur der Google-Kopien (Stand 28. Februar 2010: 130,694 Titel) Zusätzliche Sucheinschränkung "AND tpb" "

Dirk Pieper (Gast) antwortete am 2010/03/05 16:28:

Falls jemand diesen Quatsch mit liest, kann er sich hier selbst ein Bild machen:

http://www.archive.org/services/oai2.php?verb=ListSets

Der Hinweis auf Texts ist doch schon mal gut; geht doch, Herr Graf.

Und was ist jetzt mit den Sets, die Sie oben erwähnt haben (American, Canadian, European Libraries)? Sollen wir die auch nehmen, oder sind da Dubletten zu Texts drin oder was?

Und was ist mit

mediatype:text
Items with mediatype equal to text

−

mediatype:texts
Items with mediatype equal to texts

Wo ist der Unterschied zu Text oder Texts?

Ohne Ihre wissenschaftlich fundierten Hinweise bin ich leider aufgeschmissen ...

KlausGraf antwortete am 2010/03/05 17:08:

Ich bin kein Harvesting-Berater

Sie werden nicht drumrumkommen, probehalber die Sets auszuprobieren. Die OAI-Sets sind mir auch nicht vertraut, da ich keinen Harvester betreibe.

Den Unterschied von text und texts kann ich Ihnen nicht erklären.

Ich gehe mal davon aus, dass die Beschreibung der Collections sich auch bei den Sets widerspiegelt.

Wenn wir in Wikisource hochladen, sind wir auf Open-Source-Books verwiesen, wo sich leider neben unseren hochwertigen Digitalisaten auch der tunlichst nicht zu harvestende ganze Schrott tummelt. Es muss also sichergestellt werden, dass diese Collection nicht unter den Sets ist, so ungern ich natürlich auf viele wichtige Bücher (Kunstdenkmälerinventare z.B., Psychoanalytisches, von uns gespiegelte Google-Scans usw.) verzichte.

American Libraries und Canadian Libraries sind ebenfalls Untergruppen zu texts, aber genau diejenigen, die die wichtigsten Digitalisate bieten. Biodiversity bietet evtl. eigene Sets an, ist natürlich auch hochwertig.

Falls es European Libraries als eigenes Set gibt, gern auch das, das sind wohl fast nur gespiegelte Google-Scans v.a. aus Oxford und den anderen Google-Partnern.

Dirk Pieper (Gast) antwortete am 2010/03/05 20:16:

Ich bin kein Internet Archive Experte

und deshalb für Hinweise dankbar, in welchen von den geschätzt über tausend sets sich was verbergen könnte. Wir nehmen das IA in der Form jedenfalls aus BASE wieder raus und schauen mal, ob wir die von Ihnen genannten sets kriegen können.

KlausGraf antwortete am 2010/03/05 20:31:

Ich kann versuchen, falls es Probleme gibt, mit meinem Kontakt zum IA hilfreich zu sein.