# parsen von realen HTML-WEB-Seiten



## mariane (15. Nov 2016)

Hi,

ich müsste Html-Seiten parsen, jedoch sind diese nicht wirklich W3C-Konform, was eigentlich leider normal ist, weshalb die Parser ihren Dienst generell verweigern oder wie z.B. HTMLEditorKit einfach kein table-Tag finden, es sei denn, ich lösche alles davor heraus. Auch mit der DocumentBuilderFactory scheitere ich an normalen br- oder hr-Tag , weil eben der / fehlt.

Ich bräuchte etwas, was lokal und mit dem Web beidermaßen funktioniert.  Könnt ihr da etwas Empfehlen?

Gruß, mariane


----------



## Flown (15. Nov 2016)

Zum HTML parsen, nimm bitte einen HTML Parser: JSoup


----------

