Bestimmter Text aus PDF extrahieren

izoards · 17. Nov 2021

Hallo Liebe Java Community,

Bevor ich allenfalls den falschen Weg einschlage, wollte ich euch fragen, ob es für meine Problemstellung best - practices gibt.
Und zwar möchte ich aus einem PDF bestimmte Text Passagen extrahieren.
Das PDF ist immer gleich aufgebaut. Als Beispiel steht irgendwo Bestellnummer: 123456
Nun möchte ich die Bestellnummer auslesen.

Mit PDF Box, kann ich das ganze PDF in ein Text umwandeln, danach müsste ich "manuell" nach den gesuchten "Felder" suchen....
Bei der Suche nach Lösungen, bin ich auf "lucene Document" gestossen, so wie ich das verstanden habe, werden dort die Metadaten ausgelesen.
(Leider weiss ich nicht, ob das PDF mit Metadaten arbeitet)
Dann bin ich noch auf "Apache Tika" gestossen.

Nun wollte ich euch Fragen, wie Ihr so etwas umsetzen würdet?
Also am Schluss möchte ich 5-7 Textteile des PDF's extrahiert haben, welche alle ähnlich Wie "Bestellnummer: xxxxx" aufgebaut sind.

Herzlichen Dank für eure Hilfe und das teilen eurer Erfahrungen.

mihe7 · 17. Nov 2021

izoards hat gesagt.:
Mit PDF Box, kann ich das ganze PDF in ein Text umwandeln, danach müsste ich "manuell" nach den gesuchten "Felder" suchen....

Ja, mit Hilfe von z. B. regulären Ausdrücken geht das sehr gut.

izoards · 17. Nov 2021

Danke, und das geht auch, wenn man nicht weiss, wie lange die Bestellnummer ist?
Also ich möchte einfach "alles" was nach "Bestellnummer: " steht bis zum nächsten leerzeichen zurück erhalten.

Kann so etwas mit einem regulären Ausdruck umgesetzt werden?
Gibt es irgendwo eine gute Anleitung wie man solche patterns erstellt?

mihe7 · 17. Nov 2021

izoards hat gesagt.:
Kann so etwas mit einem regulären Ausdruck umgesetzt werden?

Natürlich.

Java:

String text = "AB CDEF Bestellnummer: 3322AB32-321 DFADdf aff jsdfl";
Matcher matcher = Pattern.compile("Bestellnummer:\\s*(\\S*)").matcher(text);
if (matcher.find()) {
    System.out.println(matcher.group(1));
}

liefert z. B. als Ergebnis

Code:

3322AB32-321

izoards hat gesagt.:
Gibt es irgendwo eine gute Anleitung wie man solche patterns erstellt?

Naja, Anleitung... https://docs.oracle.com/en/java/javase/11/docs/api/java.base/java/util/regex/Pattern.html

	Titel	Forum	Antworten	Datum
C	Koordinaten LONG/LAT eines neuen Punktes in bestimmter Entfernen und Winkel berechnen	Allgemeine Java-Themen	3	29. Apr 2021
H	Stack mit bestimmter Aufgabe	Allgemeine Java-Themen	62	24. Mai 2019
J	Message Box soll bei bestimmter Zeit angezeigt werden	Allgemeine Java-Themen	19	29. Nov 2018
N	Java Robot Printscreen in bestimmter Konstellation	Allgemeine Java-Themen	2	8. Mai 2016
	Java mit bestimmter GPU ausführen	Allgemeine Java-Themen	7	2. Jul 2014
H	Bestimmte Aufgaben zur bestimmter Zeit/ in bestimmten Intervallen	Allgemeine Java-Themen	3	25. Mrz 2014
N	Zahl mit bestimmter Länge und nur bestimmten Zahlen generieren lassen	Allgemeine Java-Themen	7	27. Jan 2013
J	Bestimmter Buchstabe = bestimmte Zahl	Allgemeine Java-Themen	10	12. Jan 2013
S	HTML-Quelltext nach bestimmter Stelle durchsuchen	Allgemeine Java-Themen	2	27. Mrz 2012
M	Klassen Array aus Klassen bestimmter Klassen ?	Allgemeine Java-Themen	11	18. Dez 2011
A	Programm an bestimmter Stelle ausführen	Allgemeine Java-Themen	5	1. Mai 2010
M	Nach bestimmter Namenskonvention filtern	Allgemeine Java-Themen	2	25. Nov 2009
C	Problem beim einlesen bestimmter Seiten	Allgemeine Java-Themen	5	19. Okt 2009
T	indexOf => bestimmter Bereich	Allgemeine Java-Themen	26	31. Jan 2007
G	In Datei an bestimmter Stelle schreiben!	Allgemeine Java-Themen	12	26. Mai 2006
L	8 bytes von bestimmter position weg lesen?	Allgemeine Java-Themen	11	12. Feb 2006
C	EML Email Text in String wandeln	Allgemeine Java-Themen	11	25. Apr 2024
O	Text aus einer Textdatei rausholen, der zwischen zwei Schlüsselworten steht	Allgemeine Java-Themen	4	25. Sep 2023
K	Bildschirm auslesen/ Text erkennen	Allgemeine Java-Themen	5	9. Mrz 2023
	Text über einen Shape anzeigen (Scenebuilder)	Allgemeine Java-Themen	1	28. Feb 2023
M	Thymeleaf th value und th text	Allgemeine Java-Themen	1	24. Feb 2023
	Eingegebenen Text Zeile für Zeile ausgeben lassen	Allgemeine Java-Themen	11	1. Okt 2022
	Eingegebenen Text wiederholt schreiben lassen	Allgemeine Java-Themen	9	23. Sep 2022
G	Darstellung von Text auf MapContext von GeoTools	Allgemeine Java-Themen	2	16. Aug 2022
	Programm stürzt beim Aufruf der Funktion ab? Text ausgeben	Allgemeine Java-Themen	45	5. Jun 2022
	JLabel nur meinen Text verschieben ohne Image	Allgemeine Java-Themen	3	19. Nov 2021
B	Scanner erkennt keinen Text in Textdatei, obwohl welcher drinsteht	Allgemeine Java-Themen	10	11. Apr 2021
K	HTMLEditor HTML Text in Rich Text umwandeln	Allgemeine Java-Themen	14	5. Apr 2021
	JDialog zeigt Text nicht an	Allgemeine Java-Themen	5	27. Sep 2020
L	Text filtern	Allgemeine Java-Themen	1	20. Mai 2020
	TEXT Kodierung	Allgemeine Java-Themen	3	20. Apr 2020
J	Die Letzte Zahl aus einer Text datei lesen	Allgemeine Java-Themen	8	23. Feb 2020
S	Ini Text aus String parsen	Allgemeine Java-Themen	1	13. Feb 2020
M	itext - Button der Text in Zwischenablage stellt	Allgemeine Java-Themen	0	7. Jan 2020
E	CSV mit Text und Binärdaten auslesen	Allgemeine Java-Themen	7	26. Apr 2019
	Datentypen Date-Array sortieren - Text mitnehmen?	Allgemeine Java-Themen	7	3. Okt 2018
I	Text suchen und ersetzen im Word Dokument	Allgemeine Java-Themen	3	18. Sep 2018
	Text mining / deep learning	Allgemeine Java-Themen	0	3. Jul 2018
I	Text aus Input-Box entnehmen und zuweisen	Allgemeine Java-Themen	1	29. Jun 2018
	Text Mining	Allgemeine Java-Themen	3	15. Mai 2018
L	Input/Output Wie kann man in der Konsole einen Text farbig ausgeben z.b in grün	Allgemeine Java-Themen	6	22. Sep 2017
B	Arrays mit Text und Zahlen füllen	Allgemeine Java-Themen	3	20. Jun 2017
A	Datenexport (Text und Draw)	Allgemeine Java-Themen	1	23. Feb 2017
L	Text von txt auf JTextArea	Allgemeine Java-Themen	4	2. Feb 2017
N	Das Ende von bestimmten zeilen in text datei ändern und speichern	Allgemeine Java-Themen	3	23. Jan 2017
A	2D-Grafik Text in ein Bild schreiben	Allgemeine Java-Themen	11	31. Aug 2016
T	Textarea text wird immer überschrieben	Allgemeine Java-Themen	4	19. Jul 2016
I	Apache POI Word Text einfügen	Allgemeine Java-Themen	26	30. Jun 2016
T	itext: text in ein textfeld hinzufügen	Allgemeine Java-Themen	2	19. Feb 2016
B	Farbiger Text in der Konsole	Allgemeine Java-Themen	1	16. Jan 2016
K	Pdf mit dynamischem Text mit iText	Allgemeine Java-Themen	0	9. Dez 2015
D	Text Analyzer	Allgemeine Java-Themen	2	7. Dez 2015
	Audiodatein(.ogg/.wav) in Text konvertieren	Allgemeine Java-Themen	0	7. Aug 2015
L	Nach Button drücken den Text festspeichern	Allgemeine Java-Themen	9	13. Jul 2015
X	Löschen von einer Zeile in einer Text Datei. Klappt nicht.	Allgemeine Java-Themen	4	4. Jun 2015
J	Text lesen und in Variablen speichern	Allgemeine Java-Themen	3	27. Mai 2015
S	Text in mehreren Sprachen korrekt darstellen? Wie waehle ich die Fonts aus..?	Allgemeine Java-Themen	0	7. Apr 2015
J	Java - Zeile aus Text datei löschen	Allgemeine Java-Themen	13	13. Jan 2015
M	Text in erstelltes Excelfile schreiben	Allgemeine Java-Themen	6	18. Nov 2014
N	Input/Output Website Text auslesen und bestimmte Zeilen wiedergeben	Allgemeine Java-Themen	4	16. Nov 2014
W	Arraylist Text Suchen und Datei löschen	Allgemeine Java-Themen	5	11. Nov 2014
P	HTML Text bearbeiten	Allgemeine Java-Themen	1	28. Okt 2014
B	JFrame Text Ausgabe	Allgemeine Java-Themen	7	28. Jul 2014
G	Makierter Text in Arbeitsspeicher	Allgemeine Java-Themen	2	3. Feb 2014
B	Text in die Mitte der Konsole schreiben.	Allgemeine Java-Themen	1	2. Feb 2014
M	Variablen Variablen in Text einbinden	Allgemeine Java-Themen	5	28. Jan 2014
P	iText Text zentrieren	Allgemeine Java-Themen	3	8. Feb 2013
J	Verschlüsselung von Text?	Allgemeine Java-Themen	2	3. Feb 2013
M	Text datei in java jar datei einbinden	Allgemeine Java-Themen	4	24. Jan 2013
S	Swing Text in eine JTextArea schreiben	Allgemeine Java-Themen	17	22. Nov 2012
M	Verschlüsselung von Text und Files durch RSA (Encoding Problem)	Allgemeine Java-Themen	7	7. Sep 2012
S	Robuste Methode um Text von HTML code zu extrahieren..?	Allgemeine Java-Themen	6	27. Jul 2012
	Rich Text Editor	Allgemeine Java-Themen	2	16. Jul 2012
M	CMD-Text anzeigen	Allgemeine Java-Themen	10	14. Jul 2012
G	Text Mining	Allgemeine Java-Themen	7	21. Jun 2012
B	Text auf Standarddrucker drucken	Allgemeine Java-Themen	3	19. Jun 2012
S	Library fuer Internet-Text-Daten-Quellen..?	Allgemeine Java-Themen	8	6. Jun 2012
	Find and replace Text docx	Allgemeine Java-Themen	6	30. Mrz 2012
M	Ein bestimmtes Wort in einem Text zählen (String in String)	Allgemeine Java-Themen	9	21. Feb 2012
S	Text in for Schleife in Label einfügen	Allgemeine Java-Themen	4	10. Feb 2012
M	Funktion gesucht: Text vektorisieren	Allgemeine Java-Themen	20	19. Okt 2011
D	Wort in Text mit >100.000 Wörter finden	Allgemeine Java-Themen	7	6. Okt 2011
B	Text wird nicht richtig angezeigt	Allgemeine Java-Themen	9	14. Sep 2011
Q	Text Datei einlesen	Allgemeine Java-Themen	27	18. Aug 2011
N	.doc text ändern	Allgemeine Java-Themen	12	17. Aug 2011
R	Komponente hat nicht die gesetzten Eingeschaften (Text, Farbe)	Allgemeine Java-Themen	3	15. Jun 2011
M	NOA an den Source Text des Dokumentes kommen	Allgemeine Java-Themen	7	15. Mai 2011
A	Text via RegEx durchsuchen und teile ersetzten	Allgemeine Java-Themen	5	19. Apr 2011
O	Text mit Wildcard gegen regulären Ausdruck prüfen	Allgemeine Java-Themen	3	11. Apr 2011
A	Umwandlung von Text/Zeichen in Polynome	Allgemeine Java-Themen	8	23. Feb 2011
Y	Eclipse ppt Folie erzeugen + text plazieren	Allgemeine Java-Themen	4	11. Feb 2011
	Eingegebenen Text in der Konsole nicht sichtbar machen oder nur in Sternchen anzeigen	Allgemeine Java-Themen	2	30. Jan 2011
D	markierten Text kopieren	Allgemeine Java-Themen	2	28. Jan 2011
P	Doppeltverkettete Listen + Text	Allgemeine Java-Themen	5	2. Jan 2011
	embedded Object Database in Text Format	Allgemeine Java-Themen	5	22. Dez 2010
C	Datei als ASCII text einlesen ?	Allgemeine Java-Themen	16	11. Dez 2010
R	Texterkennung - Text aus einem/r Bild/Grafik auslesen	Allgemeine Java-Themen	2	7. Nov 2010
M	String in Html Text umwandeln	Allgemeine Java-Themen	2	25. Sep 2010
T	eingefügter Text nach dem rendern spiegelverkehrt	Allgemeine Java-Themen	2	23. Aug 2010
	encoding einer text-datei	Allgemeine Java-Themen	2	12. Aug 2010

Bestimmter Text aus PDF extrahieren

izoards

Bekanntes Mitglied

mihe7

Top Contributor

izoards

Bekanntes Mitglied

mihe7

Top Contributor

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen