Montag, 09. Mai 2011 23:50
Heute leider eine - für die meisten Leser - vermutlich doch ein wenig trockene Angelegenheit aus dem wunderbaren Bereich der EDV. Aber was sein muß - muß halt sein.
Also los,... - einmal rein grundsätzlich: Wenn ich im Netz, also zum Beispiel hier auf meiner Seite folgenden Text schreibe: »Der Horstl hat einen runden Bauch und viel zu große Füße.« - dann wird es nicht lange dauern (vielleicht so ein bis zwei Wochen) und dieser Text ist in den Suchmaschinen abruf- und auffindbar. Ist ja auch klar. Dieser Text ist in maschinlesbarer Form abgelegt. Du kannst ihn ja auch mit deinem Maus-Cursor anzeichnen und mit Ctrl-C kopieren (auch der Dr. Gutti weiß das ganz genau!). Und so können das eben die Computer bei den Suchmaschinen auch machen.

Wenn ich aber ein Bild von diesem Text mache (als Bildschirmfoto, oder mit einer Kamera) - wie z.B. hier - dann wird dies nicht (zumindest nicht so leicht und so schnell - und bei Suchmaschinen schon gar nicht...) geschehen, da ja kein wirklich maschinlesbarer Text von dieser Nachricht existiert. Die Suchmaschine kennt lediglich den Titel der Datei (horstl.gif) und noch ein paar Parameter des Bildes (Typ, Breite, Höhe,...). All dies sagt aber nichts über den wirklichen Inhalt, oder die Aussage der Bilddatei aus, weil diese eben von Maschinen nicht sinnvoll gelesen werden kann.

Ein bisschen ein Zwitter-Produkt ist in dieser Hinsicht eine PDF-Datei. Wenn ich ein PDF ganz neu am Computer erstelle und dort Fotos einsetze, dann habe ich nachher etwas, was sich zwar mit dem PDF-Viewer irgendwie wie ein Bild ansehen läßt, aber es existiert zusätzlich auch noch der geschriebene Text in maschinlesbarer Form innerhalb dieser Datei. Die Suchmaschinen können also solche PDF-Dateien indizieren und daher auch auffinden.

Was geschieht aber, wenn ich einen Scanner habe und ein auf Papier geschriebenes Dokument als Bild in eine PDF-Datei einscanne? Dann ist dieses Bild doch eh nur ein Bild, denn ich habe in der Datei nichts geschrieben - und daher könnte da eigentlich keine Information über Inhalt des Textes und nichts und so...

So dachte ich zumindest bis heute. Vor mir liegt ein privat angefertigter Scan in ein PDF-Dokument, ausgeführt auf einem Canon-Scanner mit offenbar passender Software. Das A4-Blatt wurde wirklich eingescannt, das ist klar und deutlich an den Schlieren zu erkennen. Außerdem lag das Blatt ziemlich schief im Vorlagenhalter. Aber zusätzlich zu dem (schlechten) Scan ist in der PDF-Datei der komplette Text dieser Seite eingelesen. Halt so, wie das der Scanner (bzw. seine Software) interpretieren konnte. Es haben sich nur ein paar kleine Fehler eingeschlichen. Aus einem »a« wurde beispielsweise eine »9«. Grundsätzlich wäre jedoch alles einwandfrei von Maschinen lesbar.

So habe ich mir das noch nie überlegt. Natürlich kannte ich bereits PicToTxt - Scannprogramme, aber hätte man mich gefragt - ich hätte garantiert nie angenommen, dass ein Scan in ein PDF gleich automatisch umgewandelt würde. Wer also lieber sichere Bilder von seinen Geheimzahlen aufheben, versenden oder irgendwo im Netz speichern möchte, der scannt am Besten seine Handschrift mit einem schlechten Kuli auf Klopapier ein - aber nur in das Format *.JPG und Konsorten - und sicher niemals - und unter keinen Umständen - in eine PDF-Datei...!!


(C) mArtin, im September 2024.
Und ich bin wirklich nicht immer stolz darauf.
Manchmal aber sehr wohl.


Da einige meiner Texte ohnehin bereits an anderer Stelle verwendet wurden/werden, dürfen sie also unter Angabe der Quelle auszugsweise verwendet werden. Bitte aber den passenden Link zum entsprechenden Beitrag im Rahmen der Zitat-Kennzeichnung kopieren und einfügen. Denn irgendwann möchte ich auch reich und berühmt werden. Oder auch nicht. Herzlichen Dank und weiterhin viel (Lese-)Freude!