Archivalia: Gefängnis PDF

Gefängnis PDF

http://bibliothekarisch.de/blog/2013/12/18/was-kommt-nach-pdf/

Wieso "goldenes Gefängnis"? PDFs sind fürs Text-mining wertlos und auch für das Nachverfolgen von Links ungeeignet.

KlausGraf - am Mittwoch, 18. Dezember 2013, 17:11 - Rubrik: Technik

Kommentar verfassen

Dörte Böhner (Gast) meinte am 2013/12/18 23:16:

Als "goldenes Gefängnis" habe ich die PDFs bezeichnet, weil sie andere Bequemlichkeiten bieten, dann wenn es bei der Zitierung um feste Seitenzahlen geht (Juristen haben sich davon bereits gelöst, mit Randnummern oder einfach der Tatsache, dass in den HTML-Texten eingeblendet wird, auf welcher Seite eines sonst gedruckten Zeitschriftenartikels man sich bereits befindet). Teils punktet PDF auch immer noch bei der Darstellung von Formeln und Grafiken. Dass sich dies technisch bereits sehr gut anders lösen lässt, verblasst hinter der einfachen Integration in den derzeitigen Schreibprozess, wo sich ein PDF per Knopfdruck schnell und einfach generieren lässt. Viel Bequemlichkeit, die die wissenschaftliche Literatur in das Gefängnis PDF sperrt. Und sicherlich lassen sich dafür noch ettliche weitere Gründe finden.

Stephan Konopatzky antwortete am 2013/12/20 11:47:

Ich wäre daran interessiert, zu hören, welches Zielformat denn von den Kolleginnen und Kollegen für die Digitalisierung historischer Dokumente bzw. Archivalien, bei denen es auch auf den Erhalt einer "authentischen" Ansicht ankommt, favorisiert wird. In Sachen Text-mining sehe ich bei PDF weniger Probleme, als in dem doch recht komplizierten Dateiformat, welches sich z.B. auch in nicht immer eindeutigen Ergebnissen der Validierung von PDF/A niederschlägt. Vorteile von PDF sind meines Erachtens, die einfache OCR-Integration in Adobe-Acrobat (bei guten Vorlagen), dass ich für ein Dokument auch (nur) eine Datei erzeuge und verwalten muss, die relativ geringe Dateigröße (vorlagenabhängig) und natürlich die große Verbreitung.

Ich wünsche allen ein PDF-freies Weihnachtsfest!

Gast (Gast) meinte am 2013/12/19 14:14:

PDF-Liberation

Ganz so schlimm ist es nicht - zumindest für Text-Mining kriegt man die Daten aus den allermeisten PDFs auch wieder raus:

http://pdfliberation.wordpress.com/

lambo antwortete am 2013/12/19 21:05:

Ein Workaround ist ein Workaround - und zeigt gerade, dass das Format ungeeignet ist

Warum nicht gleich mit HTML und abgeleiteten Formaten arbeiten? Dörte Böhner weist ja zurecht darauf hin, dass man sich PDF heute nicht mehr antun müßte.

Bis es so weit ist, sind für den einzelnen Leser solche Workarounds natürlich willkommen, keine Frage.

Gast (Gast) antwortete am 2013/12/20 10:29:

HTML ist für Artikel unpraktisch, weil es keinen allgemeinen Standard gibt, um einen Text inkl. allen Bildern als einzelne Datei zu speichern und verschicken. EPUB löst hoffentlich in Zukunft das Problem: sobald die gängigen Browser EPUB ähnlich gut unterstützen wie das Acrobat- oder andere PDF-Plugins (ich also ohne das Programm zu wechseln mir eine EPUB-Datei im Browser öffnen, kommentieren, abspeichern und ausdrucken kann), gibt es hoffentlich kaum noch Gründe, weiter an PDF festzuhalten. Die gängigen EPUB-Plugins (EPUBReader für Firefox, Readium für Chrome) sind bzgl. Tempo, Bedienerkomfort und Stabilität aber noch geschätzte ein bis zwei Jahre von der Praxistauglichkeit entfernt.

Gast (Gast) antwortete am 2013/12/20 13:03:

PS: Vgl. die Präsentation "Can Scholarly Publishing Evolve Beyond the PDF?"

"The presentation includes a brief history of digital publishing, and a look at how PDF and HTML have evolved. In spite of significant usability improvements, rich linking, and supporting information in HTML full-text articles, researchers still choose PDF over HTML 65% of the time."
http://exchanges.wiley.com/blog/2013/11/11/can-scholarly-publishing-evolve-beyond-the-pdf/