# Wie XML Datei einlesen und HTML entities übernehmen?



## dd (14. Sep 2011)

Hallo zusammen,
ich benutze org.w3c.dom.Document um eine XML-file einzulesen. Mittels XPathExpression.evaluate() bekomme ich eine NodeList worauf ich mit NodeList.item().getAttributes().getNamedItem().getNodeValue() einen String extrahiere.

Nun sind in dem String die HTML Entitäten aufgelöst, ich möchte allerdings den Original String haben.

Beispiel:
[XML]<A text="&#10foo"/>[/XML]
getNodeValue() liefert als String "\nfoo" und ich möchte "&#10foo" haben.

Gruß Danyal


----------



## bygones (14. Sep 2011)

[c]URLEncoder.encode("\nfoo", "UTF-8")[/c]


----------



## dd (14. Sep 2011)

leider löst das nicht das Problem, der encoder mit "UTF-8" erstellt auch eine andere Zeichenkette "%0Afoo" != "
foo". Außerdem wäre ich an einer Lösung interessiert,bei der der String erst garnicht codiert wird, quasi das auflösen der entitäten ausschaltet.


----------



## RySa (15. Sep 2011)

Das Problem ist ja, das der DOM-Parser so etwas wie &amp etc. quasi "übersetzt". Weiß nicht wie und ob es möglich ist, doch auf den "originalen" String mittels dom zuzugreifen, es geht aber auf jeden Fall mit einem SAX/StAX-Parser über das LexicalHandler Interface.


----------

