Die Krise der Digitalisierung

Übersetzt man «Kopierer /Kopiergerät» ins russische so bieten sich zwei Möglichkeiten, das technisch korrekte „kopiroval’nij apparat“ und das umgangssprachliche „kcepoks“ denjenigen, die sich schon in den USA aufgehalten haben und des Kyrillischen mächtig sind erkennen vielleicht das Lehnwort. Es handelt sich dabei um die 1906 gegründete Xerox Corporation.
Was primär nach einfacher Trivia klingen mag, ist für unser Seminar von Quellenkritischer Relevanz. Das Lehnwort deutet nämlich auf eine Popularität von Xerox Produkten im Russischsprachigen Raum hin. Xerox hat rund 18% Marktanteil (Stand 2012) und ist damit auf dem dritten Platz hinter Samsung und HP. Wichtig ist dabei aber der Anwendermarkt, wo Xerox im Alltagsmarkt zwar schwach ist, beherrscht die Marke den Industriellen und Akademischen Markt.

Scanner in Archiven, Büros, Verwaltungsstellen und Militäreinrichtungen sind aller Wahrscheinlichkeit nach Xerox scanner, da die Marke für Grosskonsumenten gute Deals bietet inklusive Wartung, Nachfüllplänen für Tinte und Papier und vor allem schnelle Hochleistungsgeräte die nicht mehrere Minuten pro Seite benötigen wie das beim Heimscanner in hoher Auflösung durchaus der Fall sein kann.
Die Marke der Scanner könnte und sollte uns eigentlich egal sein wäre da nicht die Krise oder besser gesagt der Kriesel von 2013.
David Kriesel ist deutscher Informatiker experte für Datamining. Am 24. Juli 2013 wurde er von einer befreundeten Firma kontaktiert, die zwei Xerox-Workcenters betreibt. Die Firma behauptete, dass die Baupläne nach dem Scan andere Zahlen aufwiesen als davor. David konnte diese Veränderung tatsächlich reproduzieren. Falls sie sich mit OCR bereits auskennen, das Problem ist nicht die Texterkennung, sondern in diesem Falle tatsächlich die Pixeldaten selbst. Die Fehler sind so perfekt repliziert, dass man von Auge nicht erkennt, dass die Zahlen ersetzt wurden. Bis zum 11. August gelang es den Fehler auf allen Qualitätseinstellungen nachzuweisen, sogar Qualitätsbewusste Scans auf dem höchsten Level waren also nachweislich betroffen.
Das Grundlegende Problem liegt am Datenkompressionsalgorithmus der Firma, es ist grob erklärt für den Scanner einfacher sich einen «Stempel» für jede Zahl zu basteln und diese wieder zu verwenden, statt Pixel für Pixel abzuscannen. Dabei werden teils unleserliche oder ähnliche Zahlen ersetzt.
Ich möchte hier aber nicht den ganzen Skandal aufrollen, dies tut David in seinem brillanten Vortrag selbst. Sollten sie irgendwo im Zug oder in der Mittagspause etwas länger Zeit haben ihn zu schauen empfehle ich ihnen wärmstens sich die Zeit zu nehmen, der Vortrag erklärt nämlich auf zugängliche Art und Weise die Hintergründe und Lösungen für die Situation.

Was bedeutet das für die historischen Forschung im Internet?

Man sollte mit Zahlen sowieso immer vorsichtig sein, noch bevor sie gescannt wurden. Überlegen sie sich immer ob das, was vor ihnen steht Sinn ergibt oder nicht. Sind die Zahlen in der richtigen Reihenfolge (z.B. bei Kostenregistern aufsteigend sortiert?)
Alles ist potentiell anfällig auf solche Zahlendreher. Ich selbst musste meine erste Proseminararbeit verwerfen, weil die NASA-Akten die ich verwenden wollte voller Xerox-Artefakte waren. Es gibt Möglichkeiten die Artefakte je nach dem zu erkennen, diese gestalten sich jedoch schwierig bis hin zu unmöglich.
Die Firma Xerox hat seit dem 22.August 2013 Softwareupdates herausgebracht, die den Fehler im Scanner selbst beheben, jedoch nicht in betroffenen Dokumenten die Fehlerhaft gescannt wurden. Dennoch sind ein paar wichtige Punkte noch offen. Man kann z.B. nicht garantieren, dass jeder einzelne Scanner das Update erhalten hat. (Mal ehrlich, wann haben sie das letzte Mal ihren Scannertreiber aktualisiert?) Zusätzlich ist der Vertrieb von Xeroxprodukten nicht dezentral geregelt, das heisst, dass die Verantwortung für die Installation bei der Kundenfirma nicht bei Xerox sondern bei Unterhändlern in den einzelnen Regionen liegt. Dies vermindert die Chancen das die Softwareupdates es tatsächlich auf alle Geräte geschafft haben könnten.
Zusätzlich war die problematische Software vor der Entdeckung durch David Kriesel über Acht Jahre im Betrieb, alle Dokumente die zwischen 2005 und 2013 durch einen Xerox Scanner gescannt wurden sind also potentiell betroffen.

von Julian Fischer

Titelbild: xerox.com; Background photo created by kjpargeter – www.freepik.com.