Input/Output Java + OCR ? Erfahrungen und bitte um Hilfe

mac21 · 19. Aug 2014

Hallo zusammen,

leider muss ich das beliebte Thema "OCR unter Java" wieder aufgreifen...
Viel zu lesen, entschuldigt...

Ich versuche, Fahrzeugscheine ("Zulassungsbescheinigung Teil1") von einem Scan zu digitalisieren.
Nach dem ich die Einträge hier im Forum gelesen habe [somit fällt wohl euer erster Tipp weg

] und mich auch per Google schlau gemacht hab, hätte ich gerne noch eine Meinung von euch dazu.

Begonnen habe ich mit "Asprise OCR", was aber kostenpflichtig ist, und mit der "Free-Trial-Demo" konnte ich nicht viel anfangen.
Durch die Suche auf Google stieß ich auf "oscarklee-javaocr", die Texterkennung erfolgt durch den vergleich eines Vorlagenbildes (zb mit A-Z,a-z,0-9) mit dem Scan.
Obwohl ich verschiedene Scans versucht habe, 200dpi, 300dpi jeweils in s/w und Farbe, wurden Buchstaben falsch erkannt. Zahlen funktionieren super!
Da im Fahrzeugschein die Schriftart "Courier new" verwendet wird (meiner Meinung nach muss das diese Schriftart sein, habs mehrmals verglichen), "bastelte" ich auch eine neue Vorlagendatei in dieser.
Zahlen werden nach wie vor super erkannt, doch die Buchstaben sind eine Katastrophe. N oder H, O oder o, manchmal überspringt er ganze "Teile" eines Wortes. Aus 17ECAN65 wurde "17E65", da sich die Serifen von "CAN" "berühren" und "CAN" somit als EIN Zeichen erkannt wird, welches nicht in der Vorlagendatei auftaucht.
Durch längeres stöbern hierzu wurde ich auf einen Post aufmerksam, in dem von "oscarklee-javaocr" abgeraten wird, man solle lieber "Tesseract" bzw. in meinem Fall "Tess4J" verwenden.

Eclipse auf, neues Projekt, Jar-Dateien als Bibliotheken eingebunden, Erstellungspfad angepasst, externe DLL geladen,
alles kein Problem.
Test von Tess4J
lief einwandfrei!
Lese ich den Fahrzeugschein im ganzen ein (egal ob S/W- oder Farbscan) kommt nur quark raus.

Überlegung: Zerlegen des Scheins in Zonen, wie beim "Zone OCR".
Also schnell ein paar einzelne Zeilen herausgeschnitten, Erkennung viel besser als bei "oscarklee",

Jedoch taucht nun ein neues Problem auf:
Aus "PERSONENKRAFTWAGEN" wird nun nicht "PERNKFTWAN" (wie in oscarklee javaocr) sondern
"P ERS O N ENKRAFT WAGE N" zwar sind alle Zeichen da, aber mit Leerzeichen.
ReplaceAll(" ","") wäre Quark, da ich in manchen Zeilen die Leerzeichen benötige.

Habt ihr nun Idee, Erfahrungen, Vorschläge oder Projekte für mich, die mich evtl etwas weiter bringen könnten?

taro · 19. Aug 2014

Du könntest zum Beispiel mit Wortlisten arbeiten. Ich habe allerdings keine Ahnung, inwiefern das bei dir praktikabel ist.

Testweise hatte ich vor geraumer Zeit einmal mit https://code.google.com/p/tesseract-ocr/ ein wenig rumgespielt und war eigentlich recht zufrieden - auch wenn es keine direkte "Java-Einbindung" gibt, lässt sich der Prozess recht gut automatisieren und die Ergebnisse mit wenig Aufwand in Java weiterverarbeiten.

mac21 · 20. Aug 2014

Hallo taro,

vielen Dank für die Antwort,
Guter Vorschlag! Aber Wortlisten sind leider nicht sinnvoll, da es sich um Fahrzeugscheine handelt... die Einzigen lesbaren Worte sind wohl der Name und Autohersteller, vllt noch ein paar kleine Zusätze. Aber das meiste sind "unlogische" (für den PC) Wörter aus Ziffern und Buchstaben...

ich las in einem Forum, dass Tess4J nur ein Wrapper für Java ist, der auch Tesseract aufbaut. Die DLLs, die verwendet werden, sind die gleichen. Also frage ich mich, ob sich da viel ändert, wenn ich direct Tesseract benutze...

Zwar habe ich nun, entgegen meines Statements, alle Leerzeichen aus den Ausgabestrings gelöscht, jedoch sind immer noch typische Fehler wie "N = H, 0 = O, I = l" vorhanden... Laut der Seite von Tess4J soll es eine Trefferquote von 95% geben...
Die haben wohl ein "Wort" aus 95 x "U" und 5 x "H" genommen... "U...NNNNN" kam raus --> passt schon...
Leider habe ich gerade so die Basics drauf, in ein Project andere Jar-Bibliotheken oder DLLs zu laden.

taro · 20. Aug 2014

Lass deine Scans doch einmal direkt durch Tesseract laufen und schau, was er dir denn da ausspuckt.

Wichtig ist, das die Scans in einer relativ hohen Auflösung vorliegen (Optimal sind 600 dpi)

mac21 · 20. Aug 2014

Done.
Ähnlich wie bei der Verwendung von Tess4J scannt er nur die Linke spalte, in der die Infos zum Fahrzeughalter stehen.
Die Details in der mittleren und rechten Spalte wurden nicht bearbeitet.
Hier der Output (Daten wurden teilweise durch xxxxx zensiert)

Zulassungsbescheinigung Teil I l
(Fahrzeugschein) N

1~mâ€”K-0-212/14-ooo45|

EuropÃ©iische Bundesrepublik â€˜
Gemei uuhaft Deutschland

XXXXXXXX <MEINE STRAßE>
XXXXXXXX <PLZ und Ort>

EIG. * LUNG: ZEI E1300-0033*DATUIï¬‚UR

Permiso de circulaciÃ©n. Earle/I; OsvÃ©dÃ©eni 0 registracia Cisï¬ I / | â€” -
Re istrerin satte t. e e isxreerimistunnistus. sa
R gmsm Kg;Lot4)()S;J{';1dI'I|L<;rE7rngLr\](1r|Kn') IÃ©wpmmg. M700; I / P I / | 0 0 O 0 6 0
' t t" rt â€™cat . rt rtâ€˜ â€˜c t â€™Immatr' tio . artâ€˜
egl(%a|:zÂ«1'ciiri1Ã©:iSct)||azIoE1e. Sane I /eReKÂ§isatr2cijas aplilggilia. |r.â€˜da|a /le | 0 0 0 0
Regtstracljos Iiudijimas. I dalis / Forgalmi engedÃ©ly. !. RÃ©sz /
Certrï¬kat taâ€™ Registrazzjuni. LÂ»| Parti / Kentekenbewujsâ€˜ Dee! I / 8 â€”
DowÃ©d Rejestracyjndy. Cw? I t/ lcsrlgiï¬cadto dedmatlricuta. gaultle/I / |
0 dâ€˜ ' ' e ii. a ' rome no ova 'en'e. e _
Sâ€˜!/Zeek(i:setr;|reÃ©:Itei:rlJdisntxs. Ossa ll Registreringsbevjxsei. Del I 0 0 9 0 0 5 0
AAmt|i:hes Kennzeichen I S (J) 1 5 5 3 7 8 S
ND D179 | | PERSONENKRAFTWAGEN l55R13 783
(1.1 Name oder Firmenname [ "
, XXXXXX<Mein Name> 1 R ROT
1 K _
c.1.2 Vornamekn) 1 BENZ IN 6 .. 17
â€˜ 2â€˜ â€”
c.1.3Anschrm I ZU 18-20:B.1690*ZUG:BIS 1075*ZU .â€˜1:1470 BIS 8PROZ.ST

[1j;';:,â€˜:uâ€œnï¬ W09 . 2015 NEUBURG A . D . Donmu]
L - ' 31.07.2014

C.4c Der lnhaber der Zulassungsbescheinigung wird nichl als Eigentiimer des
Fahrzeugs ausgewiesen. N

EDIT: Ich habe scans mit 200 dpi, 300 dpi getestet, mehr ist uns leider nicht möglich

Farbe oder S/W juckt die meisten OCR-Programme nicht, Tess4J zB wandelt alle eingaben eh in S/W um...

taro · 20. Aug 2014

in welchem Format liegen dir die scans vor?

Die besten Ergebnisse habe ich im Allgemeinen mit RAW-Tiffs - die schlechtesten mit jpg ...

Grüße
Sven

mac21 · 20. Aug 2014

da muss ich ehrlich zugeben, bisher habe ich PNG und JPG getestet.
Das eigentliche Programm soll später PDFs einlesen.
(Wobei ich PDF zu PNG/JPG konvertieren kann).

Muss erst gucken, mit wie viel DPI und in welchen Formaten ich Scannen kann, in meiner Testumgebung.
Ich find das heraus und gebe dir bescheid.

Danke für die Hilfe

mac21 · 20. Aug 2014

Haben 2 Scanner (also MFCs):
der eine scannt mit JPGs mit 150 oder 200 DPI
der andere scannt PDFs mit 150, 200 oder 300 DPI.
Nur wenige der "freeware" OCRs lesen PDFs, das eine Programm benötigt sogar GhostScript.
Wenn ich ein PDF mit 300 DPI zu TIFF konvertiere, vorausgesetzt, dass das geht,
verliere ich dann an Qualität?

taro · 20. Aug 2014

Die Frage ist, in welchem Format die Grafik in dem PDF eingebettet wird - oftmals verwenden diese Geräte eine Kompression, um die Dateigröße möglichst gering zu halten - dies ist natürlich genau das, was du nicht willst.

Ich kann dir aus Erfahrung sagen (jährlich eine 6-stellige Zahl von OCR-Dokumenten), dass genau solche Dateien am meisten Probleme bereiten.

mac21 · 20. Aug 2014

Ah okay, verstehe.
An sowas dachte ich leider gar nicht.

Habe dir auf deine Nachricht zurück geschrieben.

Naja und selbst wenn wir das nicht besser hinbekommen... muss ich eben mit leben...
dann wird einfach jedes "wort" in ein eigenes Textfeld eingelesen, muss zur Not manuell korrigiert werden.

mac21 · 22. Aug 2014

Hey taro,

vielen Dank für den Tipp mit der DPI-Zahl.
Habe nun folgendes versucht:
300 dpi, 600 dpi, 1200 dpi
jpg, bmp, tif
s/w, graustufen (fehlerstreuung), echte graustufen, 24bit-farbe

und einfach mal den ganzen tag gescannt
ALLE kombinationen...

Ergebnis: Alle mit "fehlerstreuung" kannste für OCR wegwerfen
"LEIDER" bekomme ich mit 300 DPI die "besten" Ergebnisse, mit der höchsten Trefferquote.
600 und 1200 sind so groß, dass TESS4J / Tesseract die farbigen Kringel im Hintergrund als Buchstaben und Zahlen sieht...
bei 300 DPI hat er diese Wohl ignoriert, weil zu klein.

Durch die versch. Farboptionen habe ich versucht, die Hintergrundmuster auszumerzen
--> Lief nicht so wie ich gedacht habe.
Auch das setzen eines Filters in Tess4J, wonach nur "schwarztöne" als Buchstaben erkannt, und farbiges ignoriert wird , funktionierte nicht wie erwartet.
Ergebnis ist ehrlich noch schlechter als mit 300 dpi...

Teilweise wurden bei 1200 dpi NUR die Kringel im Hintergrund als Buchstaben/Symbole erkannt, die EIGENTLICHEN Buchstaben nicht.

Anstelle von "NISSAN (J)" bekam ich "N 15 ‘bvncnnvuvbi"
was zur...

deprimierend...

taro · 22. Aug 2014

nicht aufgeben - oftmals sind es nur Kleinigkeiten, welche den Unterschied machen, weiteres erstmal per PN

mac21 · 16. Sep 2014

Hallo taro,

vielen Dank für die Hilfe.
ich hoffe so sehr, dass es irgendwie akzeptabel zu lösen ist.
Habe dir aufgrund deiner PN an deine E-Mailadresse geantwortet.

	Titel	Forum	Antworten	Datum
A	VPN-Nutzung mit Java-Apps – Erfahrungen und Empfehlungen?	Allgemeine Java-Themen	0	22. Jul 2025
E	Erfahrungen mit Java/JS Bridge unter nodejs und NodeJS/C++ Bridge	Allgemeine Java-Themen	0	7. Feb 2018
F	java prog als windows-dienst. Erfahrungen?	Allgemeine Java-Themen	2	23. Mrz 2011
G	Erfahrungen mit der Klasse "JavaCompiler" (Java 6)	Allgemeine Java-Themen	13	18. Feb 2007
D	Online Java-Adventskalender	Allgemeine Java-Themen	3	4. Dez 2025
I	Eigene Java-Library promoten (Lib zur Barcode-Generierung)	Allgemeine Java-Themen	19	17. Jul 2025
	Von C++ nach Java	Allgemeine Java-Themen	2	9. Apr 2025
	Java auf USB Stick	Allgemeine Java-Themen	5	20. Feb 2025
	Mitstreiter gesucht: Gemeinsam Java und Android Development lernen!	Allgemeine Java-Themen	5	25. Aug 2024
	Karriereberatung benötigt: Wie kann ich ein Java Full Stack Entwickler werden?	Allgemeine Java-Themen	7	21. Aug 2024
P	Java Access Bridge	Allgemeine Java-Themen	5	28. Mai 2024
W	ICEpdf PDF-Dateien werden mit Java 21 nicht nicht mehr vollständig dargestellt	Allgemeine Java-Themen	3	26. Mai 2024
	Grundsätzliche Frage zur Verwendung von Java Versionen??	Allgemeine Java-Themen	3	6. Mai 2024
	Java Deployment Vaadin	Allgemeine Java-Themen	3	16. Apr 2024
D	Hat Java eine Library um JavaScript auszuwerten?	Allgemeine Java-Themen	2	29. Feb 2024
	Wieso sind eigentlich JUnit-Tests in src/test/java platziert - nur Konvention?	Allgemeine Java-Themen	7	11. Feb 2024
N	LlaMA, KI, java-llama.cpp	Allgemeine Java-Themen	39	26. Dez 2023
V	Java-Codierungsherausforderung: Navigieren durch die Macken der Datumsmanipulation	Allgemeine Java-Themen	2	28. Nov 2023
E	Output Fehler (Java-Programm Kuchen)	Allgemeine Java-Themen	11	4. Nov 2023
M	java: unexpected type	Allgemeine Java-Themen	2	2. Nov 2023
	Java Input/Output Tests Junit	Allgemeine Java-Themen	3	22. Okt 2023
B	Java Discord bot auf ein Root Server?	Allgemeine Java-Themen	1	21. Okt 2023
	Java PKIX path building failed as non Admin	Allgemeine Java-Themen	15	17. Okt 2023
D	Linux, Java-Version wird nicht erkannt bzw. welche Einstellung fehlt noch?	Allgemeine Java-Themen	19	11. Okt 2023
	Java 21 Release	Allgemeine Java-Themen	5	19. Sep 2023
V	Umgang mit fehlenden Daten in einer Java-Datenanalyseanwendung	Allgemeine Java-Themen	5	15. Sep 2023
P	Fehler: Hauptklasse Main konnte nicht gefunden oder geladen werden Ursache: java.lang.ClassNotFoundException: Main	Allgemeine Java-Themen	24	13. Sep 2023
K	Java Anwendung machen Anleitung	Allgemeine Java-Themen	5	8. Sep 2023
G	java.io.listFiles()	Allgemeine Java-Themen	3	16. Aug 2023
	Frage zu Java Streams min / max	Allgemeine Java-Themen	17	16. Aug 2023
S	Java Programm lässt sich vom USB-Stick starten, aber nicht von HDD	Allgemeine Java-Themen	16	31. Jul 2023
K	Java-Projekt	Allgemeine Java-Themen	11	9. Jul 2023
K	Java-Projekt	Allgemeine Java-Themen	0	9. Jul 2023
	Welcher Browser unterstützt heutzutage noch Java Applets?	Allgemeine Java-Themen	5	23. Jun 2023
	Java-Klasse im extra cmd-Fenster ausführen	Allgemeine Java-Themen	3	31. Mai 2023
	Java Threads	Allgemeine Java-Themen	4	9. Mai 2023
G	java.io.listFiles()	Allgemeine Java-Themen	2	4. Mai 2023
N	Java Dynamic Proxy	Allgemeine Java-Themen	3	10. Apr 2023
N	Leichte Java Gegner Ki	Allgemeine Java-Themen	10	3. Apr 2023
A	Java modul Problem	Allgemeine Java-Themen	4	21. Mrz 2023
	Java Jar datei erstellen, von Projekt, dass auch Javafx Dateien, FXML Dateien und CSS Dateien, sowie Bilder enthält?	Allgemeine Java-Themen	14	21. Mrz 2023
V	Funktionale Schnittstelle in Java	Allgemeine Java-Themen	3	13. Mrz 2023
	Java String in Hashmap als Key NULL	Allgemeine Java-Themen	27	8. Mrz 2023
	Exception in thread "main" java.lang.Error: Unresolved compilation problem:	Allgemeine Java-Themen	7	6. Mrz 2023
	Wenn ich bei Intelij javafx mit maven importieren will, muss ich das in die pom.xml reintun, aber warum noch in module-info.java?	Allgemeine Java-Themen	3	25. Feb 2023
	Java 20 am 21. März	Allgemeine Java-Themen	1	24. Feb 2023
O	Java Website Stock Bot	Allgemeine Java-Themen	3	24. Feb 2023
J	Front-/Backend in Java	Allgemeine Java-Themen	14	10. Feb 2023
	JAVA Google Webcrawler	Allgemeine Java-Themen	1	29. Jan 2023
J	JavaScript innerhalb eines Java Projekts ausführen	Allgemeine Java-Themen	2	26. Jan 2023
A	Java Programm erstellen hilfe	Allgemeine Java-Themen	10	20. Jan 2023
G	java.lang.NoClassDefFoundError: org/aspectj/lang/Signature	Allgemeine Java-Themen	2	19. Jan 2023
	Java Aktienkurse nachfragen	Allgemeine Java-Themen	4	19. Jan 2023
J	Class to link Java	Allgemeine Java-Themen	4	18. Jan 2023
V	Wie funktioniert das Schlüsselwort "final" von Java?	Allgemeine Java-Themen	19	18. Jan 2023
	Inferenz JAVA	Allgemeine Java-Themen	6	15. Jan 2023
U	URI Rechner (Java Script)	Allgemeine Java-Themen	7	5. Jan 2023
	Java Geburtsdatum Textfeld	Allgemeine Java-Themen	7	30. Dez 2022
	Java 19 JavaDocs: Browserintegration	Allgemeine Java-Themen	1	19. Dez 2022
	Gleichzeitiges Ausführen und verbinden von 2 Java-Klassen über die Eingabeaufforderung und Eclipse	Allgemeine Java-Themen	21	5. Dez 2022
H	Java Rechner Programmierung der Mathematik	Allgemeine Java-Themen	33	1. Dez 2022
	Java Kara Auf einen Java Host laufen lassen	Allgemeine Java-Themen	17	29. Nov 2022
C	Fußnoten von DocX mit Java	Allgemeine Java-Themen	2	27. Nov 2022
C	Fußnoten in DocX mit Java	Allgemeine Java-Themen	1	27. Nov 2022
	Aussagenlogik in Java Programmieren	Allgemeine Java-Themen	22	18. Nov 2022
B	Per Java Word Dokument schreiben?	Allgemeine Java-Themen	8	10. Nov 2022
	Java-Bibliothek für ONVIF	Allgemeine Java-Themen	1	9. Nov 2022
	Oracle übergibt (Java Teile der) GraalVM Community Edition an OpenJDK Community	Allgemeine Java-Themen	2	26. Okt 2022
	Brauche Hilfe - Java Projekt kann nicht erstellt werden	Allgemeine Java-Themen	12	25. Okt 2022
B	Java mit command line und jars benutzen?	Allgemeine Java-Themen	18	22. Okt 2022
	Java Überprüfen ob .exe-Datei bereits ausgeführt wird	Allgemeine Java-Themen	2	19. Okt 2022
B	HTTP Allgemeine Fragen über Suchmaschine nutzen mit Java	Allgemeine Java-Themen	20	16. Okt 2022
	Wie kriege ich die Fehlermeldung "java: symbol lookup error: ..." weg?	Allgemeine Java-Themen	11	13. Okt 2022
K	Nachhilfe Java	Allgemeine Java-Themen	11	11. Okt 2022
	Java 19	Allgemeine Java-Themen	11	19. Sep 2022
F	IDEA IntelliJ Java Songliste erstellen	Allgemeine Java-Themen	6	15. Sep 2022
	Java bestimmtes Array auf den Wert 0 setzen	Allgemeine Java-Themen	32	19. Aug 2022
B	Java Reflection Probleme beim wehcselseitigen Referenzieren zweier Klassen/Objekte	Allgemeine Java-Themen	14	23. Jul 2022
	Sind alle Methoden in Java implizit virtuell	Allgemeine Java-Themen	2	6. Jul 2022
E	Java und integrierte Grafikkarten	Allgemeine Java-Themen	18	5. Jul 2022
	Wie wird die Typumwandlung bei Mehrfachvererbung in Java implementiert?	Allgemeine Java-Themen	3	4. Jul 2022
	Hilfe bei Java gesucht	Allgemeine Java-Themen	3	28. Jun 2022
A	Java unter Win 10	Allgemeine Java-Themen	1	11. Jun 2022
B	Woher kommen die Bildschirmkoordinaten beim java Robot?	Allgemeine Java-Themen	14	10. Jun 2022
	java.Lang Klassen fehlen in JRE System Library	Allgemeine Java-Themen	1	7. Jun 2022
T	Java Robot Class - Bot	Allgemeine Java-Themen	3	2. Jun 2022
E	Wie Java Heap Space vergrößern?	Allgemeine Java-Themen	3	26. Mai 2022
B	Java Programm auf virutellem Desktop laufen lassen?	Allgemeine Java-Themen	1	21. Mai 2022
D	VBA Code mit Java ausführen möglich?	Allgemeine Java-Themen	10	9. Mai 2022
	Threads, wie genau läuft das in Java ab? (Ich kann Threads erstellen und nutzen, nur das Verständnis)	Allgemeine Java-Themen	6	28. Apr 2022
	Java Home Pfad unabhängig von der Version	Allgemeine Java-Themen	7	25. Apr 2022
N	JAVA-Code mit Grafikfenster zeichnet in Windows, aber nicht Mac.	Allgemeine Java-Themen	4	24. Apr 2022
L	Java überprüfen lassen, ob sich ein gegebener Pfad / das Programm an sich auf einer CD oder Festplatte befindet	Allgemeine Java-Themen	14	21. Apr 2022
	CVE-2022-21449: Fehler in Java bei Signaturprüfung	Allgemeine Java-Themen	20	21. Apr 2022
	Java sql	Allgemeine Java-Themen	15	7. Apr 2022
	Unverständlicher Java code?	Allgemeine Java-Themen	21	4. Apr 2022
	XSD To Java - Überschreiben von Assoziationen	Allgemeine Java-Themen	1	30. Mrz 2022
	Comparisons and Swapa in Bubble-sort Java	Allgemeine Java-Themen	6	17. Mrz 2022
	Java 18	Allgemeine Java-Themen	8	10. Mrz 2022
N	Statistische Auswertung von Logfiles (Einlesen, auswerten und grafische Aufbereitung von logfiles) mit Java	Allgemeine Java-Themen	9	7. Mrz 2022

Input/Output Java + OCR ? Erfahrungen und bitte um Hilfe

mac21

Aktives Mitglied

taro

Bekanntes Mitglied

mac21

Aktives Mitglied

taro

Bekanntes Mitglied

mac21

Aktives Mitglied

taro

Bekanntes Mitglied

mac21

Aktives Mitglied

mac21

Aktives Mitglied

taro

Bekanntes Mitglied

mac21

Aktives Mitglied

mac21

Aktives Mitglied

taro

Bekanntes Mitglied

mac21

Aktives Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen