Archivalia: An easy to use free web service to extract text from PDFs and other documents

An easy to use free web service to extract text from PDFs and other documents - OCR support included!

http://givemetext.okfnlabs.org/

Seit kurzem liefert Google Books die PDF seiner gemeinfreien Bücher mit OCR aus. Diese kann so extrahiert werden.

KlausGraf - am Dienstag, 1. September 2015, 16:21 - Rubrik: Technik

Kommentar verfassen

bobgoehler meinte am 2015/09/01 20:34:

wieso doppelt ocr?

Die verlinkte Plattform stellt doch nur ein Web-Frontend für OCR dar - das ist nichts was man auf der Konsole/Kommandozeile nicht auch selbst machen könnte. Hierfür einen Web-Service zu nutzen halte ich für unnötig, die Datenschutzimplikationen (man gibt ja die Texte ggf. aus der Hand und füllt schlimmstenfalls irgendwelche fremden Datenbanken)für problematisch.
Wieso aber sollte man aber eine Google-Pdf, die bereits (wahrscheinlich mit derselben OCR-Engine Tesseract) erkannt ist nochmal durch die Texterkennung schicken? Tesseract ist in meinem Workaround bisher kommerziellen Lösungen (Abby) unterlegen (keine Verwendung statistischer Sprachmodelle), aber der derzeit einzige mir bekannte Weg, kostenneutral OCR auf Frakturschrift zu machen.

Gute Erfahrungen habe ich gemacht, indem ich die unsäglich riesenhaften Repositoriums-Scans aus den Digitalisierungszentren/ Online-Angeboten von Bibliotheken (farbige JPGs/PDFs von s/w Büchern, je etwa 150 MB pro Band) per Stapelverarbeitung mit etwas Scharf-/Weichzeichner und ein paar Filtern zu s/w-Bildern gewandelt und diese durch die OCR geschickt habe. Die Fehlerquote in der Erkennung sank dadurch von 1-2% auf unter 0,1% (i.e. 1-2 Fehler auf 2 A4 Normseiten) und ist damit besser als das in den Repositorien selbst Gebotene. Dort laufen die produktiven Systeme meist auf Visual Library - Systemen, die proprietär (früher Microsoft-Ökosystem, IIS; jetzt VLs, etwas selbstgebautes) und schwerlich evaluierbar sind. Für die Qualitäten dieser Erfassung sei auf die vielen Blogposts von KG verwiesen, die in epischer Breite schildern, was alles nicht zu finden ist, obwohl es "augenscheinlich" auf der Seite steht.

Sollte das Ausgangsmaterial aus dem Kopierer stammen (und der Scanoperator nicht so fit sein (schwarze Ränder, Buchfalz etc.)), empfiehlt sich zusätzlich das von Jens Gulden vor 9 Jahren(!) geschriebene und nach wie vor unerreichte unpaper.

gast (Gast) antwortete am 2015/09/02 09:44:

Was soll das Gemecker?

"das ist nichts was man auf der Konsole/Kommandozeile nicht auch selbst machen könnte" - Sie schließen vermutlich von sich auf andere (mein knapp 80-jähriger Vater ist nicht so fit auf der Kommandozeile, ein PDF kann er aber mit dem Browser hochladen). Er würde den Dienst auch kaum dazu nutzen, um seine eingescannten Kassenbelege für die Steuererklärung aufzubereiten sondern viel eher, um gemeinfreie Werke zu digitalisieren. Wenn dann ein Werk wie der Faust unverschlüsselt durchs Netz rauscht, steht ja nicht gleich die informationelle Selbstbestimmung auf dem Spiel.
Und für technisch versierte Personen steht ja der volle Source Code sowie ein Docker-Image zum Download bereit.
Aber vielen Dank für den Hinweis auf unpaper - kannte ich nicht und zeigt wirklich gute Ergebnisse.

bobgoehler antwortete am 2015/09/02 16:00:

Aber wozu nochmal OCR machen?

Zugegeben: Konsole ist nicht jedermanns Sache/ täglich Brot, wenngleich viel plausibler und präziser in der Handhabung als die meisten GUIs (ich gebe einen Befehl → Computer tut). "Visuell" "intuitiv" ist in der Interaktion mit Computer ja nun mal nix, all das ist erlerntes Verhalten. Ich erinnere mich, wie mein Vater das erste mal eine Maus in der Hand hatte, oder Apple riesige Kampagnen fuhr, um die Nation das Wischen zu lehren.
Die Unbedarftheit hinsichtlich der Datenschutzbedenken teile ich aber nicht, selbst wenn es nur der Faust ist. Wen geht es was an (Lesegewohnheiten, Mindset etc - alles aggregierbare personenbezogene Daten), vor allem wenn man ohne eine Webdienst auskommem kann? Der eigentliche Punkt ist aber, dass die Google-Pdfs offensichtlich schon OCRed sind, oder?
Und ja, unpaper rockt und hat mir schon mehr als 600000 Seiten schön gemacht.

KlausGraf antwortete am 2015/09/02 16:05:

Missverständnis

Ich denke nicht, dass ein ganzes Buch-PDF von Google einer nochmaligen OCR durch das Tool unterzogen wird. Der vorhandene OCR-Text wird, wie ich schrieb, extrahiert. Das ist nur EINE von potentiell vielen Anwendungsmöglichkeiten des Werkzeugs. Niemand zwingt einen, es zu benutzen.