Archivalia: Émpfehlung zu JBIG2-Komprimierung

Émpfehlung zu JBIG2-Komprimierung

http://kost-ceco.ch/cms/index.php?jbig2-compression_de

"Im August 2013 wurde ein beunruhigender Fehler beim Scannen von PDF-Dokumenten mit Xerox-Geräten festgestellt. Der Fehler besteht hauptsächlich darin, dass einzelne Ziffern durch andere Ziffern ersetzt werden. Diese falschen Ziffern sind pixelidentisch mit anderen Ziffern im Dokument."

Siehe
http://archiv.twoday.net/stories/1022382638/

"In PDF/A-Dateien dürfen verlustbehaftete Komprimierungen wie zum Beispiel JBIG2 eingesetzt werden. Bei einer Konvertierung von PDF zu PDF/A wird die JBIG2-Komprimierung und ggf. der Substitution-Fehler übernommen. Da der Fehler irreversibel ist und nicht festgestellt werden kann, ob das PMS-Verfahren eingesetzt wurde oder nicht, empfiehlt die KOST, beim Erstellen von PDF-Dateien vorerst auf die Kompressionsart JBIG2 zu verzichten und die verschiedenen Quellen, insbesondere die Informatikdienstleister der abliefernden Stellen, zu sensibilisieren."

KlausGraf - am Montag, 16. Februar 2015, 15:52 - Rubrik: Digitale Unterlagen

Kommentar verfassen

bobgoehler meinte am 2015/02/16 21:09:

kommt drauf an.

Dem 31c3-Talk von David Kriesel nach liegt das Problem in der Hardware-Implementierung von Xerox und der verlustbehafteten Spielart, nicht am Codec per se.
JBIG2 grundsätzlich zu verdammen, halte ich daher für sinnfrei, zu beeindruckend sind die Kompressionsraten. Eine pdf A4-Seite hat in meinem digitalen Privatarchiv selten mehr als 60kB pro Seite bei 600dpi.

Am meisten Dateneinsparpotential hat der Scanvorgang selbst. Sehr selten mag es Gründe geben, schwarzen Text auf weißem Papier farbig oder grau scannen. Für die Datenmenge bedeutet das Unkomprimiert Faktor 768 (RGB Farbe) oder 256 (Grau).

1bit mit hoher Auflösung ist für viele Belange (Dokumentenseiten) meist weit sinnvoller, die geringe Datenmenge ermöglicht enormen Spielraum hinsichtlich höherer Auflösungen. OCR (Texterkennung) kommt damit auch besser klar.

georg.buechler antwortete am 2015/03/23 13:04:

Die Koordinationsstelle für die dauerhafte Archivierung elektronischer Unterlagen (KOST) ist der Meinung, dass sehr wohl der JBIG2-Codec das Problem ist. Die JBIG2-Implementierung von Xerox ist sehr verlustbehaftet, aber nicht falsch, da der JBIG2-Codec das verlustbehaftete Pattern Matching & Substitution-Verfahren ermöglicht und erlaubt. Die extremen Kompressionsraten kommen genau dann zustande, wenn das verlustbehaftete Pattern Matching & Substitution-Verfahren eingesetzt wird. Unsere Empfehlung, auf den Kompressionsalgorithmus JBIG2 soweit möglich zu verzichten, richtet sich vor allem an Institutionen, bei welchen die Qualität höher gewichtet ist als die Datenmenge.