Input/Output Java + OCR ? Erfahrungen und bitte um Hilfe

mac21

Aktives Mitglied
Hallo zusammen,

leider muss ich das beliebte Thema "OCR unter Java" wieder aufgreifen...
Viel zu lesen, entschuldigt...

Ich versuche, Fahrzeugscheine ("Zulassungsbescheinigung Teil1") von einem Scan zu digitalisieren.
Nach dem ich die Einträge hier im Forum gelesen habe [somit fällt wohl euer erster Tipp weg ;) ] und mich auch per Google schlau gemacht hab, hätte ich gerne noch eine Meinung von euch dazu.

Begonnen habe ich mit "Asprise OCR", was aber kostenpflichtig ist, und mit der "Free-Trial-Demo" konnte ich nicht viel anfangen.
Durch die Suche auf Google stieß ich auf "oscarklee-javaocr", die Texterkennung erfolgt durch den vergleich eines Vorlagenbildes (zb mit A-Z,a-z,0-9) mit dem Scan.
Obwohl ich verschiedene Scans versucht habe, 200dpi, 300dpi jeweils in s/w und Farbe, wurden Buchstaben falsch erkannt. Zahlen funktionieren super!
Da im Fahrzeugschein die Schriftart "Courier new" verwendet wird (meiner Meinung nach muss das diese Schriftart sein, habs mehrmals verglichen), "bastelte" ich auch eine neue Vorlagendatei in dieser.
Zahlen werden nach wie vor super erkannt, doch die Buchstaben sind eine Katastrophe. N oder H, O oder o, manchmal überspringt er ganze "Teile" eines Wortes. Aus 17ECAN65 wurde "17E65", da sich die Serifen von "CAN" "berühren" und "CAN" somit als EIN Zeichen erkannt wird, welches nicht in der Vorlagendatei auftaucht.
Durch längeres stöbern hierzu wurde ich auf einen Post aufmerksam, in dem von "oscarklee-javaocr" abgeraten wird, man solle lieber "Tesseract" bzw. in meinem Fall "Tess4J" verwenden.

Eclipse auf, neues Projekt, Jar-Dateien als Bibliotheken eingebunden, Erstellungspfad angepasst, externe DLL geladen,
alles kein Problem.
Test von Tess4J
lief einwandfrei!
Lese ich den Fahrzeugschein im ganzen ein (egal ob S/W- oder Farbscan) kommt nur quark raus.

Überlegung: Zerlegen des Scheins in Zonen, wie beim "Zone OCR".
Also schnell ein paar einzelne Zeilen herausgeschnitten, Erkennung viel besser als bei "oscarklee",

Jedoch taucht nun ein neues Problem auf:
Aus "PERSONENKRAFTWAGEN" wird nun nicht "PERNKFTWAN" (wie in oscarklee javaocr) sondern
"P ERS O N ENKRAFT WAGE N" zwar sind alle Zeichen da, aber mit Leerzeichen.
ReplaceAll(" ","") wäre Quark, da ich in manchen Zeilen die Leerzeichen benötige.

Habt ihr nun Idee, Erfahrungen, Vorschläge oder Projekte für mich, die mich evtl etwas weiter bringen könnten?
 

taro

Bekanntes Mitglied
Du könntest zum Beispiel mit Wortlisten arbeiten. Ich habe allerdings keine Ahnung, inwiefern das bei dir praktikabel ist.

Testweise hatte ich vor geraumer Zeit einmal mit https://code.google.com/p/tesseract-ocr/ ein wenig rumgespielt und war eigentlich recht zufrieden - auch wenn es keine direkte "Java-Einbindung" gibt, lässt sich der Prozess recht gut automatisieren und die Ergebnisse mit wenig Aufwand in Java weiterverarbeiten.
 
Zuletzt bearbeitet:

mac21

Aktives Mitglied
Hallo taro,

vielen Dank für die Antwort,
Guter Vorschlag! Aber Wortlisten sind leider nicht sinnvoll, da es sich um Fahrzeugscheine handelt... die Einzigen lesbaren Worte sind wohl der Name und Autohersteller, vllt noch ein paar kleine Zusätze. Aber das meiste sind "unlogische" (für den PC) Wörter aus Ziffern und Buchstaben...

ich las in einem Forum, dass Tess4J nur ein Wrapper für Java ist, der auch Tesseract aufbaut. Die DLLs, die verwendet werden, sind die gleichen. Also frage ich mich, ob sich da viel ändert, wenn ich direct Tesseract benutze...

Zwar habe ich nun, entgegen meines Statements, alle Leerzeichen aus den Ausgabestrings gelöscht, jedoch sind immer noch typische Fehler wie "N = H, 0 = O, I = l" vorhanden... Laut der Seite von Tess4J soll es eine Trefferquote von 95% geben...
Die haben wohl ein "Wort" aus 95 x "U" und 5 x "H" genommen... "U...NNNNN" kam raus --> passt schon...
Leider habe ich gerade so die Basics drauf, in ein Project andere Jar-Bibliotheken oder DLLs zu laden.
 

taro

Bekanntes Mitglied
Lass deine Scans doch einmal direkt durch Tesseract laufen und schau, was er dir denn da ausspuckt.

Wichtig ist, das die Scans in einer relativ hohen Auflösung vorliegen (Optimal sind 600 dpi)
 

mac21

Aktives Mitglied
Done.
Ähnlich wie bei der Verwendung von Tess4J scannt er nur die Linke spalte, in der die Infos zum Fahrzeughalter stehen.
Die Details in der mittleren und rechten Spalte wurden nicht bearbeitet.
Hier der Output (Daten wurden teilweise durch xxxxx zensiert)


Zulassungsbescheinigung Teil I l
(Fahrzeugschein) N

1~m—K-0-212/14-ooo45|

Européiische Bundesrepublik ‘
Gemei uuhaft Deutschland

XXXXXXXX <MEINE STRAßE>
XXXXXXXX <PLZ und Ort>

EIG. * LUNG: ZEI E1300-0033*DATUIflUR

Permiso de circulacién. Earle/I; Osvédéeni 0 registracia Cisï¬ I / | — -
Re istrerin satte t. e e isxreerimistunnistus. sa
R gmsm Kg;Lot4)()S;J{';1dI'I|L<;rE7rngLr\](1r|Kn') Iéwpmmg. M700; I / P I / | 0 0 O 0 6 0
' t t" rt ’cat . rt rt‘ ‘c t ’Immatr' tio . art‘
egl(%a|:z«1'ciiri1é:iSct)||azIoE1e. Sane I /eReK§isatr2cijas aplilggilia. |r.‘da|a /le | 0 0 0 0
Regtstracljos Iiudijimas. I dalis / Forgalmi engedély. !. Rész /
Certrï¬kat ta’ Registrazzjuni. L»| Parti / Kentekenbewujs‘ Dee! I / 8 —
Dowéd Rejestracyjndy. Cw? I t/ lcsrlgiï¬cadto dedmatlricuta. gaultle/I / |
0 d‘ ' ' e ii. a ' rome no ova 'en'e. e _
S‘!/Zeek(i:setr;|reé:Itei:rlJdisnt:)xs. Ossa ll Registreringsbevjxsei. Del I 0 0 9 0 0 5 0
AAmt|i:hes Kennzeichen I S (J) 1 5 5 3 7 8 S
ND D179 | | PERSONENKRAFTWAGEN l55R13 783
(1.1 Name oder Firmenname [ "
, XXXXXX<Mein Name> 1 R ROT
1 K _
c.1.2 Vornamekn) 1 BENZ IN 6 .. 17
‘ 2‘ —
c.1.3Anschrm I ZU 18-20:B.1690*ZUG:BIS 1075*ZU .‘1:1470 BIS 8PROZ.ST

[1j;';:,‘:u“nï¬ W09 . 2015 NEUBURG A . D . Donmu]
L - ' 31.07.2014

C.4c Der lnhaber der Zulassungsbescheinigung wird nichl als Eigentiimer des
Fahrzeugs ausgewiesen. N

EDIT: Ich habe scans mit 200 dpi, 300 dpi getestet, mehr ist uns leider nicht möglich :(
Farbe oder S/W juckt die meisten OCR-Programme nicht, Tess4J zB wandelt alle eingaben eh in S/W um...
 
Zuletzt bearbeitet:

taro

Bekanntes Mitglied
in welchem Format liegen dir die scans vor?

Die besten Ergebnisse habe ich im Allgemeinen mit RAW-Tiffs - die schlechtesten mit jpg ...

Grüße
Sven
 

mac21

Aktives Mitglied
da muss ich ehrlich zugeben, bisher habe ich PNG und JPG getestet.
Das eigentliche Programm soll später PDFs einlesen.
(Wobei ich PDF zu PNG/JPG konvertieren kann).

Muss erst gucken, mit wie viel DPI und in welchen Formaten ich Scannen kann, in meiner Testumgebung.
Ich find das heraus und gebe dir bescheid.

Danke für die Hilfe
 

mac21

Aktives Mitglied
Haben 2 Scanner (also MFCs):
der eine scannt mit JPGs mit 150 oder 200 DPI
der andere scannt PDFs mit 150, 200 oder 300 DPI.
Nur wenige der "freeware" OCRs lesen PDFs, das eine Programm benötigt sogar GhostScript.
Wenn ich ein PDF mit 300 DPI zu TIFF konvertiere, vorausgesetzt, dass das geht,
verliere ich dann an Qualität?
 

taro

Bekanntes Mitglied
Die Frage ist, in welchem Format die Grafik in dem PDF eingebettet wird - oftmals verwenden diese Geräte eine Kompression, um die Dateigröße möglichst gering zu halten - dies ist natürlich genau das, was du nicht willst.

Ich kann dir aus Erfahrung sagen (jährlich eine 6-stellige Zahl von OCR-Dokumenten), dass genau solche Dateien am meisten Probleme bereiten.
 

mac21

Aktives Mitglied
Ah okay, verstehe.
An sowas dachte ich leider gar nicht.

Habe dir auf deine Nachricht zurück geschrieben.

Naja und selbst wenn wir das nicht besser hinbekommen... muss ich eben mit leben...
dann wird einfach jedes "wort" in ein eigenes Textfeld eingelesen, muss zur Not manuell korrigiert werden.
 

mac21

Aktives Mitglied
Hey taro,

vielen Dank für den Tipp mit der DPI-Zahl.
Habe nun folgendes versucht:
300 dpi, 600 dpi, 1200 dpi
jpg, bmp, tif
s/w, graustufen (fehlerstreuung), echte graustufen, 24bit-farbe

und einfach mal den ganzen tag gescannt
ALLE kombinationen...

Ergebnis: Alle mit "fehlerstreuung" kannste für OCR wegwerfen
"LEIDER" bekomme ich mit 300 DPI die "besten" Ergebnisse, mit der höchsten Trefferquote.
600 und 1200 sind so groß, dass TESS4J / Tesseract die farbigen Kringel im Hintergrund als Buchstaben und Zahlen sieht...
bei 300 DPI hat er diese Wohl ignoriert, weil zu klein.

Durch die versch. Farboptionen habe ich versucht, die Hintergrundmuster auszumerzen
--> Lief nicht so wie ich gedacht habe.
Auch das setzen eines Filters in Tess4J, wonach nur "schwarztöne" als Buchstaben erkannt, und farbiges ignoriert wird , funktionierte nicht wie erwartet.
Ergebnis ist ehrlich noch schlechter als mit 300 dpi... :(

Teilweise wurden bei 1200 dpi NUR die Kringel im Hintergrund als Buchstaben/Symbole erkannt, die EIGENTLICHEN Buchstaben nicht.

Anstelle von "NISSAN (J)" bekam ich "N 15 ‘bvncnnvuvbi"
was zur... :D

deprimierend...
 

mac21

Aktives Mitglied
Hallo taro,

vielen Dank für die Hilfe.
ich hoffe so sehr, dass es irgendwie akzeptabel zu lösen ist.
Habe dir aufgrund deiner PN an deine E-Mailadresse geantwortet.
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
E Erfahrungen mit Java/JS Bridge unter nodejs und NodeJS/C++ Bridge Allgemeine Java-Themen 0
F java prog als windows-dienst. Erfahrungen? Allgemeine Java-Themen 2
G Erfahrungen mit der Klasse "JavaCompiler" (Java 6) Allgemeine Java-Themen 13
theJavaMaschine Mitstreiter gesucht: Gemeinsam Java und Android Development lernen! Allgemeine Java-Themen 5
PARAS Karriereberatung benötigt: Wie kann ich ein Java Full Stack Entwickler werden? Allgemeine Java-Themen 7
P Java Access Bridge Allgemeine Java-Themen 5
W ICEpdf PDF-Dateien werden mit Java 21 nicht nicht mehr vollständig dargestellt Allgemeine Java-Themen 3
MiMa Grundsätzliche Frage zur Verwendung von Java Versionen?? Allgemeine Java-Themen 3
OnDemand Java Deployment Vaadin Allgemeine Java-Themen 3
D Hat Java eine Library um JavaScript auszuwerten? Allgemeine Java-Themen 2
Zrebna Wieso sind eigentlich JUnit-Tests in src/test/java platziert - nur Konvention? Allgemeine Java-Themen 7
N LlaMA, KI, java-llama.cpp Allgemeine Java-Themen 39
V Java-Codierungsherausforderung: Navigieren durch die Macken der Datumsmanipulation Allgemeine Java-Themen 2
E Output Fehler (Java-Programm Kuchen) Allgemeine Java-Themen 11
M java: unexpected type Allgemeine Java-Themen 2
harrytut Java Input/Output Tests Junit Allgemeine Java-Themen 3
B Java Discord bot auf ein Root Server? Allgemeine Java-Themen 1
BetziTheRealOne Java PKIX path building failed as non Admin Allgemeine Java-Themen 15
D Linux, Java-Version wird nicht erkannt bzw. welche Einstellung fehlt noch? Allgemeine Java-Themen 19
KonradN Java 21 Release Allgemeine Java-Themen 5
V Umgang mit fehlenden Daten in einer Java-Datenanalyseanwendung Allgemeine Java-Themen 5
P Fehler: Hauptklasse Main konnte nicht gefunden oder geladen werden Ursache: java.lang.ClassNotFoundException: Main Allgemeine Java-Themen 24
K Java Anwendung machen Anleitung Allgemeine Java-Themen 5
G java.io.listFiles() Allgemeine Java-Themen 3
8u3631984 Frage zu Java Streams min / max Allgemeine Java-Themen 17
S Java Programm lässt sich vom USB-Stick starten, aber nicht von HDD Allgemeine Java-Themen 16
K Java-Projekt Allgemeine Java-Themen 11
K Java-Projekt Allgemeine Java-Themen 0
ruutaiokwu Welcher Browser unterstützt heutzutage noch Java Applets? Allgemeine Java-Themen 5
Jose05 Java-Klasse im extra cmd-Fenster ausführen Allgemeine Java-Themen 3
rode45e Java Threads Allgemeine Java-Themen 4
G java.io.listFiles() Allgemeine Java-Themen 2
N Java Dynamic Proxy Allgemeine Java-Themen 3
N Leichte Java Gegner Ki Allgemeine Java-Themen 10
A Java modul Problem Allgemeine Java-Themen 4
Thomasneuling Java Jar datei erstellen, von Projekt, dass auch Javafx Dateien, FXML Dateien und CSS Dateien, sowie Bilder enthält? Allgemeine Java-Themen 14
V Funktionale Schnittstelle in Java Allgemeine Java-Themen 3
OnDemand Java String in Hashmap als Key NULL Allgemeine Java-Themen 27
urmelausdemeis Exception in thread "main" java.lang.Error: Unresolved compilation problem: Allgemeine Java-Themen 7
berserkerdq2 Wenn ich bei Intelij javafx mit maven importieren will, muss ich das in die pom.xml reintun, aber warum noch in module-info.java? Allgemeine Java-Themen 3
KonradN Java 20 am 21. März Allgemeine Java-Themen 1
O Java Website Stock Bot Allgemeine Java-Themen 3
J Front-/Backend in Java Allgemeine Java-Themen 14
doopexxx JAVA Google Webcrawler Allgemeine Java-Themen 1
J JavaScript innerhalb eines Java Projekts ausführen Allgemeine Java-Themen 2
A Java Programm erstellen hilfe Allgemeine Java-Themen 10
G java.lang.NoClassDefFoundError: org/aspectj/lang/Signature Allgemeine Java-Themen 2
lalex1491 Java Aktienkurse nachfragen Allgemeine Java-Themen 4
J Class to link Java Allgemeine Java-Themen 4
V Wie funktioniert das Schlüsselwort "final" von Java? Allgemeine Java-Themen 19
mrStudent Inferenz JAVA Allgemeine Java-Themen 6
U URI Rechner (Java Script) Allgemeine Java-Themen 7
TheSkyRider Java Geburtsdatum Textfeld Allgemeine Java-Themen 7
mihe7 Java 19 JavaDocs: Browserintegration Allgemeine Java-Themen 1
Encera Gleichzeitiges Ausführen und verbinden von 2 Java-Klassen über die Eingabeaufforderung und Eclipse Allgemeine Java-Themen 21
H Java Rechner Programmierung der Mathematik Allgemeine Java-Themen 33
Lennox Schinkel Java Kara Auf einen Java Host laufen lassen Allgemeine Java-Themen 17
C Fußnoten von DocX mit Java Allgemeine Java-Themen 2
C Fußnoten in DocX mit Java Allgemeine Java-Themen 1
M Aussagenlogik in Java Programmieren Allgemeine Java-Themen 22
B Per Java Word Dokument schreiben? Allgemeine Java-Themen 8
krgewb Java-Bibliothek für ONVIF Allgemeine Java-Themen 1
KonradN Oracle übergibt (Java Teile der) GraalVM Community Edition an OpenJDK Community Allgemeine Java-Themen 2
Momo16 Brauche Hilfe - Java Projekt kann nicht erstellt werden Allgemeine Java-Themen 12
B Java mit command line und jars benutzen? Allgemeine Java-Themen 18
M Java Überprüfen ob .exe-Datei bereits ausgeführt wird Allgemeine Java-Themen 2
B HTTP Allgemeine Fragen über Suchmaschine nutzen mit Java Allgemeine Java-Themen 20
Mick P. F. Wie kriege ich die Fehlermeldung "java: symbol lookup error: ..." weg? Allgemeine Java-Themen 11
K Nachhilfe Java Allgemeine Java-Themen 11
KonradN Java 19 Allgemeine Java-Themen 11
F IDEA IntelliJ Java Songliste erstellen Allgemeine Java-Themen 6
TheSepp Java bestimmtes Array auf den Wert 0 setzen Allgemeine Java-Themen 32
B Java Reflection Probleme beim wehcselseitigen Referenzieren zweier Klassen/Objekte Allgemeine Java-Themen 14
Sachinbhatt Sind alle Methoden in Java implizit virtuell Allgemeine Java-Themen 2
E Java und integrierte Grafikkarten Allgemeine Java-Themen 18
Sachinbhatt Wie wird die Typumwandlung bei Mehrfachvererbung in Java implementiert? Allgemeine Java-Themen 3
Peterw73 Hilfe bei Java gesucht Allgemeine Java-Themen 3
A Java unter Win 10 Allgemeine Java-Themen 1
B Woher kommen die Bildschirmkoordinaten beim java Robot? Allgemeine Java-Themen 14
P9cman java.Lang Klassen fehlen in JRE System Library Allgemeine Java-Themen 1
T Java Robot Class - Bot Allgemeine Java-Themen 3
E Wie Java Heap Space vergrößern? Allgemeine Java-Themen 3
B Java Programm auf virutellem Desktop laufen lassen? Allgemeine Java-Themen 1
D VBA Code mit Java ausführen möglich? Allgemeine Java-Themen 10
berserkerdq2 Threads, wie genau läuft das in Java ab? (Ich kann Threads erstellen und nutzen, nur das Verständnis) Allgemeine Java-Themen 6
izoards Java Home Pfad unabhängig von der Version Allgemeine Java-Themen 7
N JAVA-Code mit Grafikfenster zeichnet in Windows, aber nicht Mac. Allgemeine Java-Themen 4
L Java überprüfen lassen, ob sich ein gegebener Pfad / das Programm an sich auf einer CD oder Festplatte befindet Allgemeine Java-Themen 14
KonradN CVE-2022-21449: Fehler in Java bei Signaturprüfung Allgemeine Java-Themen 20
berserkerdq2 Java sql Allgemeine Java-Themen 15
JordenJost Unverständlicher Java code? Allgemeine Java-Themen 21
LimDul XSD To Java - Überschreiben von Assoziationen Allgemeine Java-Themen 1
Aartiyadav Comparisons and Swapa in Bubble-sort Java Allgemeine Java-Themen 6
KonradN Java 18 Allgemeine Java-Themen 8
N Statistische Auswertung von Logfiles (Einlesen, auswerten und grafische Aufbereitung von logfiles) mit Java Allgemeine Java-Themen 9
ME2002 Fragen aus einer Java Klausur Allgemeine Java-Themen 67
Z Mit Java 8+ Streams Zeilen nummern zu Zeilen hinzufügen Allgemeine Java-Themen 17
M Verständnisfrage java.util.TimerTask Allgemeine Java-Themen 2
V Hilfe mit Java Code Allgemeine Java-Themen 4
S Processing Java Code verstehen Allgemeine Java-Themen 4

Ähnliche Java Themen


Oben