# HTML mit dom4j parsen?



## SaschaLR (6. Feb 2008)

Hallo,

wenn ich versuche einem freisch erzeugten SAXParser eine (beliebige) HTML-Datei zu geben bemängelt er so einiges (Fehlendes </META>, </BR>, </P> usw...)... ist an sich ja auch logisch.

Wie kann ich so ein "kaputtes" HTML-Dokument dennoch mit Hilfe von dom4j verarbeiten? Kann ihc da irgendwo eine Prüfung ausschalten ohne dass der Parser sich verrent oder einen "HTML-Modus" ktivieren oder ähnliches?

Oder gibt es wieder andere Libs mit denen ich das .html vor-formatieren muss?

Da es hier um unterschiedliche Seiten aus dem Netz geht habe ich leider auch keinen Einfluss auf die Einhaltung von Standards...

Gruss,
Sascha


----------



## Wildcard (6. Feb 2008)

HTML ist kein XML, also kannst du keinen XML Parser verwenden. Nur xHTML ist auch XML, aber Webdesigner verstehen nun mal nicht, warum das besser sein sollte als das 'gute, alte HTML'  :roll: 
Du brauchst einen HTML Parser.


----------



## SaschaLR (6. Feb 2008)

Danke. 

Hatte gehofft es gäbe das im XML-Parser so eine Art Weichei-Mode oder so...

Kann jemand einen komfortable HTML-Parser empfehlen? Möglichst nah an der API von dom4j?

Gruss,
Sascha


----------

