Hallo Liebe Java Community,
Bevor ich allenfalls den falschen Weg einschlage, wollte ich euch fragen, ob es für meine Problemstellung best - practices gibt.
Und zwar möchte ich aus einem PDF bestimmte Text Passagen extrahieren.
Das PDF ist immer gleich aufgebaut. Als Beispiel steht irgendwo Bestellnummer: 123456
Nun möchte ich die Bestellnummer auslesen.
Mit PDF Box, kann ich das ganze PDF in ein Text umwandeln, danach müsste ich "manuell" nach den gesuchten "Felder" suchen....
Bei der Suche nach Lösungen, bin ich auf "lucene Document" gestossen, so wie ich das verstanden habe, werden dort die Metadaten ausgelesen.
(Leider weiss ich nicht, ob das PDF mit Metadaten arbeitet)
Dann bin ich noch auf "Apache Tika" gestossen.
Nun wollte ich euch Fragen, wie Ihr so etwas umsetzen würdet?
Also am Schluss möchte ich 5-7 Textteile des PDF's extrahiert haben, welche alle ähnlich Wie "Bestellnummer: xxxxx" aufgebaut sind.
Herzlichen Dank für eure Hilfe und das teilen eurer Erfahrungen.
Bevor ich allenfalls den falschen Weg einschlage, wollte ich euch fragen, ob es für meine Problemstellung best - practices gibt.
Und zwar möchte ich aus einem PDF bestimmte Text Passagen extrahieren.
Das PDF ist immer gleich aufgebaut. Als Beispiel steht irgendwo Bestellnummer: 123456
Nun möchte ich die Bestellnummer auslesen.
Mit PDF Box, kann ich das ganze PDF in ein Text umwandeln, danach müsste ich "manuell" nach den gesuchten "Felder" suchen....
Bei der Suche nach Lösungen, bin ich auf "lucene Document" gestossen, so wie ich das verstanden habe, werden dort die Metadaten ausgelesen.
(Leider weiss ich nicht, ob das PDF mit Metadaten arbeitet)
Dann bin ich noch auf "Apache Tika" gestossen.
Nun wollte ich euch Fragen, wie Ihr so etwas umsetzen würdet?
Also am Schluss möchte ich 5-7 Textteile des PDF's extrahiert haben, welche alle ähnlich Wie "Bestellnummer: xxxxx" aufgebaut sind.
Herzlichen Dank für eure Hilfe und das teilen eurer Erfahrungen.