Hallo liebe community
Ich suche nach einer Java library, die aus PDF Dokumenten Bilder erstellt und den Text ausliest.
Folgende Anforderungen sollten erfüllt werden:
- Aus einem PDF Dokument werden pro PDF Seite je 3 Bilder in der gewünschten grösse erstellt.
- Aus PDF Dokumenten den Text auslesen (wird später ev. in einer DB, oder als JSON gespeichert).
- Link Attribute im PDF Dokument erkennen und auslesen können.
- Schnelle verarbeitunng (PDF Dokument mit z.B. 1000 Seiten in max. 20 min. verarbeiten).
- Open source (wenn möglich).
Die Library sollte für Desktop Apps, sowie auf einem Webserver eingesetzt werden können.
Über Google stiess ich auf PDFbox und iText. Hat jemand schon erfahrungen damit gesammelt? Was ratet ihr mir?
Ich suche nach einer Java library, die aus PDF Dokumenten Bilder erstellt und den Text ausliest.
Folgende Anforderungen sollten erfüllt werden:
- Aus einem PDF Dokument werden pro PDF Seite je 3 Bilder in der gewünschten grösse erstellt.
- Aus PDF Dokumenten den Text auslesen (wird später ev. in einer DB, oder als JSON gespeichert).
- Link Attribute im PDF Dokument erkennen und auslesen können.
- Schnelle verarbeitunng (PDF Dokument mit z.B. 1000 Seiten in max. 20 min. verarbeiten).
- Open source (wenn möglich).
Die Library sollte für Desktop Apps, sowie auf einem Webserver eingesetzt werden können.
Über Google stiess ich auf PDFbox und iText. Hat jemand schon erfahrungen damit gesammelt? Was ratet ihr mir?