# Robuste Methode um Text von HTML code zu extrahieren..?



## sirbender (27. Jul 2012)

Hallo,

ich nutze bisher Boilerpipe um Text von HTML code (dieser liegt als String vor) zu extrahieren. Das klappt ganz gut.

Nun muss ich das ganze auf diverse Platformen portieren wo Boilerpipe nicht funktioniert (keine vollstaendige JRE Bibliothek vorhanden). Die Schnittmenge dieser Platformen ist sehr gering.

Nun frage ich mich...gibt es eine Robuste Methode die mit sehr einfachen Mitteln den Text aus HTML-code rausholen kann. Am liebsten waere mir ein Projekt, dass genau das macht und das getestet und robust ist. Mal schnell einen Regex zusammenhacken der dann prinzipiell funktioniert aber dann spaeter einem um die Ohren fliegt will ich vermeiden.

Die Text-Extrahierung muss nicht super-sauber sein, aber sie soll stabil sein und in 99,9% der Faelle ein gutes Ergebnis liefern.

Kann mir jemand was empfehlen? In Javascript hab ich sowas schon irgendwo mal gesehen...aber Google ist heute scheinbar nicht mein Freund oder es gibt bisher nichts fuer Java.

vielen Dank,
sb


----------



## ThisIsJaavaaa (27. Jul 2012)

sowas?

jsoup Java HTML Parser, with best of DOM, CSS, and jquery


```
final String text = Jsoup.parse(html).text;
```


----------



## sirbender (27. Jul 2012)

Vielen Dank!!! Werd ich nachher mal checken...muss gleich weg.


Ich bin gerade am ermitteln, was ich der kleinste gemeinsame Nenner an JRE libs ist die ich nutzen kann.

Sowas wie org.w3c.dom.Document geht schonmal nicht 

Auch java.net glaub nicht


----------



## sirbender (28. Jul 2012)

Schade.

HttpURLConnection und URLEncoder sind nicht verfuegbar


----------



## Cola_Colin (28. Jul 2012)

Was für Plattformen sind das, dass du diese Klassen nicht verwenden kannst?


----------



## sirbender (30. Jul 2012)

GWT ist eine der Platformen. Da faellt schon viel weg


----------



## kama (30. Jul 2012)

Hi,

ich kann mal Tika empfehlen...

Gruß
Karl-Heinz Marbaise


----------

