http://qt-apps.org/content/show.php/Hathi+Download+Helper?content=158702
Gibt es schon Erfahrungen mit dem Tool?
Gibt es schon Erfahrungen mit dem Tool?
KlausGraf - am Samstag, 8. Juni 2013, 21:50 - Rubrik: Digitale Bibliotheken
jaymz1980 meinte am 2013/06/09 18:42:
Läuft gut.
Testbuch: http://babel.hathitrust.org/cgi/pt?id=mdp.39015033301246;view=1up;seq=7Leider recht langsam wegen eines zu langsamen Servers.
Gast (Gast) antwortete am 2013/07/02 22:57:
..ist jetzt schneller
Hi jaymz1980,ich habe gerade die Version 1.0.4 ausprobiert.
Die Download-Geschwindigkeit ist jetzt etwas schneller.
Allerdings kommen von Zeit zu Zeit Zwangspausen durch den Server.
Gast (Gast) meinte am 2013/07/15 10:57:
nicht fehlerfrei
Bei meinen bisherigen Downloads (recht umfangreich, ab 100 S. aufwärts) fehlten immer einzelne Seiten (ca. 2-5% des Gesamttextes)!! Vielleicht wegen des zeitweise stockenden Download-Vorgangs?Außerdem lassen sich keine akzeptablen Volltext-PDFs erzeugen. Da ist offensichtlich die OCR-Qualität sehr verbesserungswürdig.
Kris (Gast) antwortete am 2013/08/01 08:08:
brauchbarer Downloader
Hallo allerseits,ich habe bisher gute Erfahrungen mit dem Downloader gemacht.
Die Beobachtung, dass einzelne Seiten fehlen kann ich bisher nicht bestätigen.Ich habe bereits mehrfach Bücher >500 Seiten vollständig heruntergeladen. (Dies könnte allerdings auch an meiner Internet Anbindung liegen. Hab nur eine 6000er Leitung. )
Wie von jaymz1980 bereits erwähnt ist der Download zusätzlich auch noch serverseitig gedrosselt. Ein timeout von 2-3 Minuten kommt bereits nach 40 Seiten, teilweise aber auch erst nach 80 Seiten. Die vollen 5 Minuten Zwangspause, wie vom Downloader angezeigt, habe ich bisher nur beim Download von pdf-Dateien beobachtet.
Zum Thema OCR muss man an dieser Stelle erwähnen, dass der Downloader keine eigene Texterkennung hat. Er lädt vielmehr die OCT-Texte von Hathitrust herunter und speichert diese als html-Dateien im Order 'ocr' ab. Das die OCR-Qualität nicht berauschend ist, kann man daher auch online bei hathitrust.org direkt ansehen. Insbesondere mit Serifen-Schriften und Tabellen kommt Hathi Trust nicht klar. Im direkten Vergleich zu der OCR-Qualität bei Archive.org besteht hier für Hathitrust.org noch eindeutiger Handlungsbedarf.
Als Fazit ist festzuhalten, dass es sich bei dem Hathi Download Helper um einen brauchbaren Downloader handelt, der einen das mühsame Herunterladen der einzelnen Seiten abnimmt. Dass der Downloader Bilder zu pdfs zusammenfassen kann ist ein nettes feature, zur Erzeugung von hochwertigen PDF-Dokumenten sollte man dann aber auf altbewährte Programme zurückgreifen, insbesondere auch um die mangelnde Texterkennung von Hathitrust.org auszugleichen.
Gast (Gast) meinte am 2014/09/25 09:48:
Download Helper funktioniert nicht mehr
Der Download via Hathi Download Helper von " Public Domain in the United States"-Werken funktioniert offenbar nicht mehr. Hathi scheint die Proxy-Anfragen irgendwie zu blocken ("Document not available"). Weiß da jemand Genaueres? Bleibt also nur der Versuch, über VPN diese Werke zugänglich zu machen?
Danke für Antworten.
Schöne Grüße