Allgemeines
Architekturarchive
Archivbau
Archivbibliotheken
Archive in der Zukunft
Archive von unten
Archivgeschichte
Archivpaedagogik
Archivrecht
Archivsoftware
Ausbildungsfragen
Bestandserhaltung
Bewertung
Bibliothekswesen
Bildquellen
Datenschutz
... weitere
Profil
Abmelden
Weblog abonnieren
null

 
http://qt-apps.org/content/show.php/Hathi+Download+Helper?content=158702

Gibt es schon Erfahrungen mit dem Tool?
jaymz1980 meinte am 2013/06/09 18:42:
Läuft gut.
Testbuch: http://babel.hathitrust.org/cgi/pt?id=mdp.39015033301246;view=1up;seq=7
Leider recht langsam wegen eines zu langsamen Servers. 
Gast (Gast) antwortete am 2013/07/02 22:57:
..ist jetzt schneller
Hi jaymz1980,

ich habe gerade die Version 1.0.4 ausprobiert.
Die Download-Geschwindigkeit ist jetzt etwas schneller.
Allerdings kommen von Zeit zu Zeit Zwangspausen durch den Server. 
Gast (Gast) meinte am 2013/07/15 10:57:
nicht fehlerfrei
Bei meinen bisherigen Downloads (recht umfangreich, ab 100 S. aufwärts) fehlten immer einzelne Seiten (ca. 2-5% des Gesamttextes)!! Vielleicht wegen des zeitweise stockenden Download-Vorgangs?
Außerdem lassen sich keine akzeptablen Volltext-PDFs erzeugen. Da ist offensichtlich die OCR-Qualität sehr verbesserungswürdig. 
Kris (Gast) antwortete am 2013/08/01 08:08:
brauchbarer Downloader
Hallo allerseits,

ich habe bisher gute Erfahrungen mit dem Downloader gemacht.

Die Beobachtung, dass einzelne Seiten fehlen kann ich bisher nicht bestätigen.Ich habe bereits mehrfach Bücher >500 Seiten vollständig heruntergeladen. (Dies könnte allerdings auch an meiner Internet Anbindung liegen. Hab nur eine 6000er Leitung. )

Wie von jaymz1980 bereits erwähnt ist der Download zusätzlich auch noch serverseitig gedrosselt. Ein timeout von 2-3 Minuten kommt bereits nach 40 Seiten, teilweise aber auch erst nach 80 Seiten. Die vollen 5 Minuten Zwangspause, wie vom Downloader angezeigt, habe ich bisher nur beim Download von pdf-Dateien beobachtet.

Zum Thema OCR muss man an dieser Stelle erwähnen, dass der Downloader keine eigene Texterkennung hat. Er lädt vielmehr die OCT-Texte von Hathitrust herunter und speichert diese als html-Dateien im Order 'ocr' ab. Das die OCR-Qualität nicht berauschend ist, kann man daher auch online bei hathitrust.org direkt ansehen. Insbesondere mit Serifen-Schriften und Tabellen kommt Hathi Trust nicht klar. Im direkten Vergleich zu der OCR-Qualität bei Archive.org besteht hier für Hathitrust.org noch eindeutiger Handlungsbedarf.

Als Fazit ist festzuhalten, dass es sich bei dem Hathi Download Helper um einen brauchbaren Downloader handelt, der einen das mühsame Herunterladen der einzelnen Seiten abnimmt. Dass der Downloader Bilder zu pdfs zusammenfassen kann ist ein nettes feature, zur Erzeugung von hochwertigen PDF-Dokumenten sollte man dann aber auf altbewährte Programme zurückgreifen, insbesondere auch um die mangelnde Texterkennung von Hathitrust.org auszugleichen. 
Gast (Gast) meinte am 2014/09/25 09:48:
Download Helper funktioniert nicht mehr
Der Download via Hathi Download Helper von " Public Domain in the United States"-Werken funktioniert offenbar nicht mehr. Hathi scheint die Proxy-Anfragen irgendwie zu blocken ("Document not available"). Weiß da jemand Genaueres?
Bleibt also nur der Versuch, über VPN diese Werke zugänglich zu machen?
Danke für Antworten.
Schöne Grüße 
 

twoday.net AGB

xml version of this page

powered by Antville powered by Helma