# Text aus PDF extrahieren



## rapthor (12. Jun 2006)

Hallo,

wie der Titel schon verrät, suche ich eine Java-Bibliothek oder einen Ansatz, wie ich *nur den Textanteil aus einem PDF-Dokument extrahiere*. Mein Ziel ist, diese Dokumente für Suchaktionen zu verwenden.

Gibt es einen solchen Ansatz schon irgendwo?

Für Unix und Windows gibt es ein Programm namens "pdftotext" (im Paket XPDF enthalten), das OpenSource ist und in C++ geschrieben wurde. Allerdings möchte ich lieber auf JAVA-Quellen zurückgreifen, anstatt per Hand C++ nach JAVA umzuwandeln.

Danke im Voraus,
Rapthor


----------



## kama (12. Jun 2006)

Hi,
schon mal Lucene angeschaut?

Edit: iText und PDFBox vergessen..
MfG
Karl Heinz


----------

