Texterkennung bzw Vervollständigung

programmierer12

Bekanntes Mitglied
Hallo zusammen,
ich weiß die Frage die jetzt kommt ist verdammt leicht *Ironie*.
Nochmal zu meiner Ausgangsbedingung:
Ich habe ein Arbeitsblatt als eingescannte Datei, allerdings sind an manchen Stellen ein paar Pixel aus den Buchstaben verschwunden. Das Blatt ist komplett weiß mit schwarzer Schrift.
Nun meine Frage: Ist es irgendwie möglich automatisiert diese fehlenden Pixel zu ergänzen? Und wenn ja wie müsste ich an die Sache rangehen?

MFG
programmierer12
 

guest_user

Mitglied
Guten Abend!

Die Sache ist schwierig. Die Texterkennung selbst sollte kein Problem sein, das Stichwort da: OCR ("Optical Character Recognition"). Da gibt es schon eine Reihe von OpenSource-Projekten für Java.

Das Problem wird das Füllen der Lücken sein. Ganz abstrakt betrachtet ist das ja nur schwer möglich. Beispiel: "Relati_itätstheorie" kann eindeutig zugeordnet werden; bei "_ein" wird es beispielsweise schon beinahe unmöglich: rein, sein, kein, fein, mein, Hein, ...

Da müsstest du schon eine Kontext-Suche anstellen und ab dem Punkt bin ich überfragt, welch ein Aufwand das wäre.
Für die Sache mit der Relativitätstheorie habe ich aber eine Idee: Eine Google/Suchmaschinen-Suche mit Operatoren (bei Google etwa das Sternchen * als Platzhalter) verwenden.


Vielleicht hilft das weiter, viele Grüße!
 

Ähnliche Java Themen


Oben