Archivalia: Anfrage: Paper Capture

Anfrage: Paper Capture

Es gibt den Typ eines PDFs "Originalbild mit verborgenem Text"/"image with hidden text", bei dem hinter dem Faksimile ein mit OCR erstellter Text liegt, bei dem nicht erkannte Zeichen als Images wiedergegeben werden. Der Text ist suchbar, und es können Textteile entnommen (in die Windows-Zwischenablage kopiert) werden. Ausser der Acrobat-Software (mit Paper Capture) können auch OCR-Programme PDFs solchen Typs erstellen.

Als grösster Vorteil wird gesehen, dass ein exaktes Faksimile vorliegt, das aber trotzdem als E-Text benutzt werden kann.

Siehe einführend:
http://www.adobe.com/support/pdfs/CapturePlugInHelp.pdf

Englisch
http://www.dclab.com/pdfconversion3.asp
http://www.experts-exchange.com/Web/Graphics/Adobe_Acrobat/Q_21089485.html
http://www.designer-info.com/master.htm?http://www.designer-info.com/Writing/paper_to_pdf.htm

Für mich sind aber viele Fragen offen:

1. Wie erkennt man im Netz ein PDF eines solchen Typs (ist das den Dateiangaben zu entnehmen oder gibt es einen einfachen Test, ein "normales" durchsuchbares PDF von einem durchsuchbaren Image zu unterscheiden)? (Wo finde ich ein paar Beispiele im Netz?)

2. Ist ein solches PDF für Suchmaschinen indizierbar?

3. Welche Nachteile hat es (abgesehen von der Größe)? Wie sieht es mit der Barrierefreiheit aus? Können ältere Acrobat-Reader es auch lesen?

4. Gibt es "freie" (womöglich kostenlose) Programme, mit denen solche PDFs erstellt werden können?

5. Wie umständlich ist die Korrektur von Erfassungsfehlern? Hilft es, wenn man einen E-Text des faksimilierten Dokuments hat, also kann man diesen irgendwie in das PDF "einlesen"?

6. Welche Archive haben mit diesem PDF-Typ bereits Erfahrungen?

Vielen Dank für alle Hilfe!

KlausGraf - am Mittwoch, 22. September 2004, 00:54 - Rubrik: Digitale Unterlagen

Kommentar verfassen

KlausGraf meinte am 2004/10/16 01:30:

Antwort aus der Vorarlberger Landesbibliothek

Herzlichen Dank an Karl Rädler!

1. Wie erkennt man im Netz ein PDF eines solchen Typs (ist das den Dateiangaben zu entnehmen oder gibt es einen einfachen Test, ein "normales" durchsuchbares PDF von einem durchsuchbaren Image zu unterscheiden)? (Wo finde ich ein paar Beispiele im Netz?)

Wenn Sie das PDF stark vergrößern, wird bei den Image-PDF's die Schrift körniger und unschärfer. Nicht bei den "normalen" PDF's, die aus einem bereits bestehenden Text generiert wurden.
Beispiele: Unsere PDF'S, die Sie als Link aus den Katalogisaten öffnen können, integrieren Image und Text. Die meisten PDF's, die über elektronisches Publizieren entstanden sind, entsprechen dem "normalen" Typ.

Wenn wir Content aus dem Netz spidern, erkennt intelligentCapture übrigens automatisch, ob ein PDF nur als Image vorliegt oder ein Text hinterlegt ist. Im einen Fall beginnt der Workflow mit OCR im zweiten Fall mit der automatischen Indexierung.

2. Ist ein solches PDF für Suchmaschinen indizierbar?

Natürlich ja!

3. Welche Nachteile hat es (abgesehen von der Größe)? Wie sieht es mit der Barrierefreiheit aus? Können ältere Acrobat-Reader es auch lesen?

Unsere PDF's, die wir derzeit produzieren, können ab der Version 5.0 gelesen werden.
Die Größe ist eigentlich heute auch kein Problem mehr. Die Schärfe ist bei stärkeren Vergrößerungen erkennbar schlechter, als bei "normalen" PDF's. Dies ist in der Praxis aber kaum relevant.

4. Gibt es "freie" (womöglich kostenlose) Programme, mit denen solche PDFs erstellt werden können?

Da wir eine kleine Institution sind, haben wir von vorneherein davon abgesehen, "freie" Programme einzusetzen, die kaum Kontinuität versprechen und eigenes "basteln" erfordern. Wir sahen in der Produktlinie von Adobe die größte Kontinuität. Sie stellt derzeit einen de fakto Standard im Publikationswesen dar, der allein durch die Verbreitung und die Anzahl der Veröffentlichungen in diesem Format auch eine Portierbarkeit auf zukünftige Formate erwarten läßt.

5. Wie umständlich ist die Korrektur von Erfassungsfehlern? Hilft es, wenn man einen E-Text des faksimilierten Dokuments hat, also kann man diesen irgendwie in das PDF "einlesen"?

Wir verwenden dazu "Quickfix" ebenfalls aus der Produktilinie von Adobe, das genau dafür konzipiert ist. Das heißt, die OCR-Algorithmen validieren die resultierenden Wörter nach Wahrscheinlichkeiten der Korrektheit. In einem sehr übersichtlichen Fenster werden diese dann aufsteigend nach dieser Wahrscheinlichkeit als Tabelle mit Image und Textergebnis editierbar angezeigt. Damit genügt es in der Regel, sich die erste Seite dieses Views anzusehen, eventuell kurz zu editieren und zu bestätigen. Der korrigierte Text wird dann dem Image-PDF hinterlegt, das heißt, das PDF entsteht erst nach der Bestätigung bzw. Korrektur des OCR-Ergebnisses. Der Workflow gestattet es aber auch, diesen OCR-Check zu überspringen. Je nach Priorität der Bibliothek (Masse - Qualität).

6. Welche Archive haben mit diesem PDF-Typ bereits Erfahrungen?

Dazu kann ich Ihnen keine Adressen nennen. Bei unseren Recherchen stellten wir fest, dass es die meisten zunächst bei reinen Images bewenden lassen und OCR für einen späteren Zeitpunkt verschieben.

Abschließend: Unsere Vorgabe war eine integrierte, insbesondere personell schlanke Lösung möglichst ohne lokale personelle EDV-Aufwendungen zu entwickeln und zum Einsatz zu bringen.
Kostenmäßig sind wir im Begriffe, die 2 Euro Marke pro Dokument zu unterschreiten, den Personaleinsatz inbegriffen. Mit jedem neu gescannten Dokument sinkt der Durchschnittspreis.
Zudem treten wir nun in die kooperative Phase ein, da bereits einige weitere Bibliotheken mit intelligentCapture begonnen haben zu produzieren, bzw. diesen Schritt planen.

KlausGraf antwortete am 2005/03/29 14:24:

Test im Archiv der RWTH

http://archiv.twoday.net/stories/597021/

KlausGraf meinte am 2006/05/04 22:26:

Text-Layer

Siehe auch die folgende Trefferliste:

http://www.google.de/search?hl=de&q=pdf+%22text+layer%22+image&btnG=Google-Suche&meta=