hi!
ich suche open-source (und wenn möglich) kostenlose APIs zum parsen der dokumenttypen pdf, doc und html...
da hab ich nun schon einiges gefunden, gerne würde ich dazu nun eure meinungen / ideen / erfahrungen hören, da ich mich leider mit keiner der unten aufgeführten APIs auskenne.
das schlechte zuerst:
doc:
kann es sein das es für das parsen von ms-word dokumenten nichts bzw. fast nichts gibt? das einzige was ich bisher gefunden hab war das Jakarta POI - HWPF projekt, das kann aber leider bisher nur word-97 dokumente lesen...
kann mir dazu jemand eine (wenns nicht anders geht auch kostenpflichtige) API empfehlen?
pdf:
dazu hab ich ein paar gefunden:
- PJ bzw. PJX von Etymon
- JPedal
- PDFBox
welches von denen würdet ihr mir empfehlen?
oder kennt ihr vielleicht ein anderes / besseres?
html:
hierzu hab ich eine ganze menge gefunden, diese vielfalt ist etwas verwirrend:
- NekoHTML
- HTML Parser
- Jericho HTML Parser
- JTidy
- TagSoup
- HotSax
bin erschlagen von der vielfalt, eine kurze empfehlung wäre sehr hilfreich!
was für APIs / tools verwendet ihr denn für solche Aufgaben?
danke für alle tips!
ich suche open-source (und wenn möglich) kostenlose APIs zum parsen der dokumenttypen pdf, doc und html...
da hab ich nun schon einiges gefunden, gerne würde ich dazu nun eure meinungen / ideen / erfahrungen hören, da ich mich leider mit keiner der unten aufgeführten APIs auskenne.
das schlechte zuerst:
doc:
kann es sein das es für das parsen von ms-word dokumenten nichts bzw. fast nichts gibt? das einzige was ich bisher gefunden hab war das Jakarta POI - HWPF projekt, das kann aber leider bisher nur word-97 dokumente lesen...
kann mir dazu jemand eine (wenns nicht anders geht auch kostenpflichtige) API empfehlen?
pdf:
dazu hab ich ein paar gefunden:
- PJ bzw. PJX von Etymon
- JPedal
- PDFBox
welches von denen würdet ihr mir empfehlen?
oder kennt ihr vielleicht ein anderes / besseres?
html:
hierzu hab ich eine ganze menge gefunden, diese vielfalt ist etwas verwirrend:
- NekoHTML
- HTML Parser
- Jericho HTML Parser
- JTidy
- TagSoup
- HotSax
bin erschlagen von der vielfalt, eine kurze empfehlung wäre sehr hilfreich!
was für APIs / tools verwendet ihr denn für solche Aufgaben?
danke für alle tips!