Archivalia: Frage zu zweischichtigen PDFs

Frage zu zweischichtigen PDFs

Gibt es freie oder kostengünstige Software, mit der man PDFs erstellen kann, bei denen der E-Text unter dem Faksimile liegt?

http://de.wikisource.org/wiki/Wikisource:Technikwerkstatt#Frage_zu_pdf-Dokument

Siehe auch:
http://archiv.twoday.net/stories/597021/
http://archiv.twoday.net/stories/338568/ (2004)

"PDF Searchable Image is a PDF Image Only document with the addition of a text layer beneath the image."
http://www.dclab.com/pdfconversion3.asp

KlausGraf - am Montag, 2. August 2010, 20:08 - Rubrik: Technik

Kommentar verfassen

Daniel Burckhardt (Gast) meinte am 2010/08/03 08:24:

Unter Ubuntu ist dies mit der freien OCR-Software (cuneiform) und einem kleinen Skript möglich:

Using pdfocr With a Multi Page PDF

pdfocr is a script that uses cuneiform which both performs OCR on multi-page PDF files, and also embeds the text back into the PDF file as a searchable text layer. The script itself can be obtained from Github (http://github.com/gkovacs/pdfocr/raw/master/pdfocr.rb) or from the PPA. To use, simply do:

pdfocr -i input.pdf -o output.pdf

(vgl. https://help.ubuntu.com/community/OCR)

Cuneiform gibt es auch für Windows (http://www.cuneiform.ru/eng/index.html) und Mac; das pdfocr-Skript ist in Ruby geschrieben, so dass eine Portierung auf andere System als Linux durchaus denkbar ist.

Daniel Burckhardt (Gast) meinte am 2010/08/03 08:34:

Alternativ kann unter Linux neben cuneiform auch hocr2pdf eingesetzt werden.

Die zentrale Routine ist:

Aus einem tiff mittels OCR eine hocr-Datei generieren
cuneiform -f hocr -o seite.html seite.tiff
und diese dann mit hocr2pdf in ein Zweischichten-PDF konvertieren
hocr2pdf -i seite.tiff -o seite.pdf < seite.html

Für mehrseite PDFs kann der Ablauf (eine Seite aus dem PDF als TIFF extrahieren, OCR laufen lassen und dann wieder zu PDF zusammengesetzen) mit einem Shell-Skript automatisiert werden (http://superuser.com/questions/28426/how-to-extract-text-with-ocr-from-a-pdf-on-linux/33203#33203).

Ein fertiges Paket, wiederum für Ubuntu, steht unter http://pdfsandwich.origo.ethz.ch/ bereit. Die Portierung auf Windows ist leider nicht ganz trivial.

Sebastian (Gast) meinte am 2010/08/03 12:03:

… und bearbeiten

Daran anschließend möchte ich die Frage stellen, ob es auch freie Tools gibt um eine (ausgeblendete) Textebene zu editieren. Ideal wäre es wenn dabei sowohl der Text als auch dessen Position bearbeitet werden könnte.