Archivalia: Nach wie vor nahezu unbrauchbare Volltextsuche des Internet Archive

Nach wie vor nahezu unbrauchbare Volltextsuche des Internet Archive

Die Volltextsuche über einen Teil der OCR-Texte des Internet Archive ist gut in der Open Library versteckt:

https://openlibrary.org/search/inside

Unter NEW wird angekündigt, man könne 2 Mio. Bücher durchsuchen. Die Suche gibt es schon lang, aber seit einiger zeit funktioniert sie nur einwandfrei, wenn man sich auf

1 (in Worten: einen) Suchbegriff

beschränkt.

Beispiel: Hundsfelden. Aber Hundsfelden am Rien (aus den angezeigten Snippets) wird weder mit noch ohne Anführungszeichen gefunden.

Häufig liest man auch "timed out".

Nicolaus Notel de Gamundia wird bei Gamundia gefunden, aber nicht bei Kombination von Suchbegriffen. Suchhilfe oder Erweiterte Suche Fehlanzeige.

Das ist angesichts der Bedeutung der Digitalen Bibliothek einfach nur zum in die Tischkante beißen.

Hat jemand eine Idee, wie man den OCR-Texten (abgesehen von einer Google-Site-Suche) Treffer entlocken kann?

KlausGraf - am Donnerstag, 12. Februar 2015, 23:31 - Rubrik: Digitale Bibliotheken

Kommentar verfassen

Monika Lehner (Gast) meinte am 2015/02/13 09:06:

Die Google-Site-Suche wird wohl nicht so viel bringen - eher 'Kreativität' bei den Suchbegriffen. Vgl. auch http://mindthegaps.hypotheses.org/796

bobgoehler meinte am 2015/02/13 13:36:

diy!

Man könnte mit der API spielen, da scheint ja einiges zu gehen. cf. https://github.com/lmullen/internetarchive
Ansonsten, wenn man viel Geduld (und ein paar rechner) hat, wäre selbst harvesten auch eine Variante. 2 Millionen Bände klingt ja eher überschaubar. Im Gegensatz zu dem, was man sonst so im Internet geboten bekommt, scheint es auch gut dokumentiert zu sein:
https://openlibrary.org/dev/docs/bots

Ein eigener Harvester hätte auch die Eleganz, dass man mit einer eigenen Suchmaschine die von Monika Lehner angesprochene Kreativität professionalisieren kann. Unscharfes Suchen mit variabler Levenshtein-Distanz wider die OCR-Fehler ist ja keine Hexerei, cf. http://lucene.apache.org/core/
und grundsätzlich http://de.wikipedia.org/wiki/Levenshtein-Distanz

Das eine graphische Repräsentation in einem Bild (Snippets) und das OCR-Ergebnis eklatant differieren können ist ja hinlänglich bekannt. Die bei archive.org benutzte OCR ist, soweit ich weiß auch nicht wörtebuchbasiert, wie bei kommerziellen Ansätze (Abby/Omnipage), sondern primär Zeichenbasiert (Tesseract) und damit quick and dirty (außer bei user contributions wie meinen eigenen, Bsp: https://archive.org/details/BorchlingConrad1900NiederdeutscheHandschriften ) .
Dieser Ansatz ist bei automatisierter Verarbeitung multilingualer Corpora aber auch schlüssig.

Vor allem sollte man dem Archiv eine gute Finanzierung sichern (spenden), dass die dortigen Cluster aufgerüstet werden können, dann klappts demnächst auch ohne Timeouts. Bestenfalls bleibt noch etwas Geld für die technische Weiterentwicklung übrig.

@Klaus Graf: alternativ schon mal mit einem Proxy den Hathihrust besucht ( http://babel.hathitrust.org/cgi/ls?field1=ocr;q1=%22Hundsfelden%20am%20Rien%22;a=srchls ) ? Da scheinen ja teilweise die selben Primärdaten verwurstet zu sein. Wenn dort dann der Titelzugriff limitiert ist, weiss man wenigstens wie er heisst und kann ihn dann ggf. über die übliche Browsing-Suche bei Archive.org einsehen oder jemanden in die Bibliothek schicken. Edel wär es dann, nach Prüfung des Todestages des Autors den Band zu scannen und bei archive.org zu contributen (vor allem bei Nachdrucken mit kürzerer Schutzfrist).

KlausGraf antwortete am 2015/02/13 15:04:

Danke

Ich denke, jemand mit guten Benziehungen zum Internet Archive sollte denen mal auf die Füße treten, denn eine Suche, bei denen nur ein Suchwort funktioniert, ist eigentlich ein no-go.

HathiTrust: Besuche ich oft mit US-Proxy, siehe dieses Blog, passim. IA hat aber auch viele Bücher, die weder bei GBS noch HT vorhanden sind.

bobgoehler antwortete am 2015/02/13 16:33:

Ich wär mit dem auf die Füße Treten vorsichtig, man ist dort weitgehend Funding-Finanziert.
Es ist beeindruckend mit wie wenig Geld die ihre Bestände einigermaßen "maintainen". Alle unsere Anfragen wurden nett und erschöpfend beantwortet. Es gibt (einfach so) die kompletten AH-Bände, ohne dass ein Preisschild draufklebt wie beim (gleichwohl verdienstvollen) Herrn Rauner. ( http://rzblx10.uni-regensburg.de/dbinfo/detail.php?titel_id=5909 )

Suche ist eben ein Service ist der kostet (bei Google eben Ihre Daten und definitiv den Überblick, wenn die Ergebnisse personalisiert sind). Dass man sich in Mountain View aus dem Business mit dem cultural Heritage zurückzieht hatten Sie ja selbst berichtet.

Mit ein paar patenten Student_Innen, freier Software und etwas Hardware ( vielleicht so? http://de.wikipedia.org/wiki/Google#mediaviewer/File:Google’s_First_Production_Server.jpg ) kann man aber sehr viel erreichen (wie oben beschrieben). Jammern/Schimpfen über no-go's aus der Google-Bubble-Perspektive vor dem Suchfeld halte ich für unangebracht. Das ist, als würde ich bemängeln, dass es in dem von Ihnen betreuten Aachener Archiv keine Volltextsuche geht oder so.
Also: Einfach machen. Die Tools sind da.