# XML - JDOM - Bäume: was würdet ihr hier machen?



## esmeralda (14. Aug 2009)

Ich hänge momentan über einem Projekt, in dem ich Sätze in XML-Form nach bestimmten Phrasen (Teilsätzen) durchsuchen muss. Die Sätze (in Japanisch) sind als XML-Datei vorhanden. Dummerweise ist die Struktur nicht so optimal, wie sie sein sollte. Die Satzstruktur ist ja normalerweise wie ein Baum aufgebaut und wäre somit für XML auch denk ich bestens geeignet. In der Datei ist es aber so, dass die Baumstruktur nur über Verweise realisiert wurde. Hier mal einen Beispielsatz:

[XML]<sentence id="s6">
   <word form="sou" pos="ADVdem" morph="--" func="COMP" parent="500" comment=""></word>
   <word form="shitara" pos="Vcnd" morph="--" func="HD" parent="500" comment=""></word>
   <word form="toriaezu" pos="ADVtmp" morph="--" func="ADJ" parent="502" comment=""></word>
   <word form="mazu" pos="ADVtmp" morph="--" func="ADJ" parent="502" comment=""></word>
   <word form="sukejuuru" pos="NN" morph="--" func="COMP" parent="501" comment=""></word>
   <word form="kara" pos="P" morph="--" func="HD" parent="501" comment=""></word>
   <word form="kimenai" pos="VADJi" morph="--" func="HD" parent="502" comment=""></word>
   <word form="to" pos="PSSa" morph="--" func="HD" parent="503" comment=""></word>
   <word form="ikenai" pos="ADJifin" morph="--" func="HD" parent="504" comment=""></word>
   <word form="no" pos="NF" morph="--" func="HD" parent="505" comment=""></word>
   <word form="desu" pos="PVfin" morph="u" func="HD" parent="506" comment=""></word>
   <word form="ne" pos="PSE" morph="--" func="MRK" parent="507" comment=""></word>
   <word form="." pos="." morph="--" func="--" parent="0" comment=""></word>
   <node num="500" cat="VPcnd" func="ADJ" parent="508" comment=""></node>
   <node num="501" cat="PP" func="COMP" parent="502" comment=""></node>
   <node num="502" cat="AP" func="COMP" parent="503" comment=""></node>
   <node num="503" cat="SS" func="COMP" parent="504" comment=""></node>
   <node num="504" cat="AP" func="COMP" parent="505" comment=""></node>
   <node num="505" cat="NP" func="COMP" parent="506" comment=""></node>
   <node num="506" cat="VPfin" func="HD" parent="507" comment=""></node>
   <node num="507" cat="S" func="HD" parent="508" comment=""></node>
   <node num="508" cat="S" func="--" parent="0" comment=""></node>
</sentence
>[/XML]  

Wie man sehen kann sind die Verweise hier das Attribut "parent". Wenn ich es richtig interpretiere, würde eine besser geschachtelte XML-Datei folgendermaßen aussehen:

[XML]<sentence id="s6">

	<node cat="S" func="--" comment="">
		<node cat="VPcnd" func="ADJ" comment="">
			<word form="sou" pos="ADVdem" morph="--" func="COMP" comment=""></word>
			<word form="shitara" pos="Vcnd" morph="--" func="HD" comment=""></word>
		</node>
		<node cat="VPfin" func="HD" comment="">
			<node cat="NP" func="COMP" comment="">
				<node cat="AP" func="COMP" comment="">
					<node cat="SS" func="COMP" comment="">
						<node cat="AP" func="COMP" comment="">
							<word form="toriaezu" pos="ADVtmp" morph="--" func="ADJ" comment=""></word>
							<word form="mazu" pos="ADVtmp" morph="--" func="ADJ" comment=""></word>
						</node>
						<node cat="AP" func="COMP" comment="">
							<node cat="PP" func="COMP" comment="">
								<word form="sukejuuru" pos="NN" morph="--" func="COMP" comment=""></word>
								<word form="kara" pos="P" morph="--" func="HD" comment=""></word>
							</node>
							<word form="kimenai" pos="VADJi" morph="--" func="HD" comment=""></word>
						</node>
						<word form="to" pos="PSSa" morph="--" func="HD" comment=""></word>
					</node>
					<word form="ikenai" pos="ADJifin" morph="--" func="HD" comment=""></word>
				</node>
				<word form="no" pos="NF" morph="--" func="HD" comment=""></word>
			</node>
			<word form="desu" pos="PVfin" morph="u" func="HD" comment=""></word>
		</node>
		<word form="ne" pos="PSE" morph="--" func="MRK" comment=""></word>
		<word form="." pos="." morph="--" func="--" comment=""></word>
	</node>

</sentence>[/XML]

Nun die eigentliche Fragestellung: Ich bin mir unsicher, wie ich das Ganze am Besten umsetzen soll. Ich wollte mit JDOM arbeiten und so schon mal die Ursprungsdatei einlesen. Die nun aber irgendwie in die neue Schachtelung umbauen? Oder lieber einen ganz anderen Ansatz in Java mit einer Baum-Datenstruktur? Hab in dem Bereich noch nicht wirklich programmiert und da bin ich noch unsicher, wie ich das Alles angehen soll. Was würdet Ihr denn machen? Ich würde mich über Tipps und Anregungen freuen .

oO(ich hoffe, ich konnte das halbwegs verständlich erklären )


----------



## Noctarius (14. Aug 2009)

Wenn du eh einen Reader bauen musst (du willst ja umwandeln) dann kannst du doch auch gleich das Originalformat behalten. Was bringt dir das neue Format an Vorteil (außer dass das Alte echt hässlich ist aber das stört den Reader ja nicht)?


----------



## esmeralda (14. Aug 2009)

Naja, das Problem an dem Originalformat ist, dass es komplizierter zu durchsuchen ist. Ich muss z.B. den Teilbaum finden, der nur zu cat="NP" gehört. In der Originalfassung muss ich dann erst sämtliche Verweise durchlaufen, um die Struktur zu erkennen. In der schön strukturierten Fassung muss ich einfach nur nach dem Knoten "node" mit cat="NP" suchen und nehme die darunter liegenden Knoten ebenfalls dazu. Das war zumindest mein Gedankengang.


----------



## musiKk (14. Aug 2009)

Huh? XML durchsucht man doch mit JPath...


----------



## esmeralda (14. Aug 2009)

JPath? Ist das XPath für Java, oder was? Kenn mich noch nicht wirklich aus und bin wie gesagt erst mal nach Möglichkeiten am Suchen. Wo wird denn JPath gut erklärt? Hab bei Google und im Forum jetzt nicht wirklich was gefunden...


----------



## musiKk (14. Aug 2009)

Argh. Freudscher Verschreiber. Auch wenn JPath ein naheliegender Name für eine XPath-Implementierung in Java ist, meinte ich eigentlich XPath, sorry. Wollte Dich nicht durcheinander bringen.
Es klang nur, als würdest Du das Dokument manuell durchsuchen. Mit XPath sollte das eigentlich recht einfach gehen.


----------



## esmeralda (15. Aug 2009)

Danke ^_^. Bin mich jetzt ein bisschen in XPATH am Einlesen und bin gespannt, wie ich damit weiterkomme. Hab Ewigkeiten nichts mehr mit Java programmiert und da brauch man doch eine gute Weile, bis man wieder halbwegs frustfrei programmieren kann ;-). Also los mit XPATH ^___^.


----------



## esmeralda (17. Aug 2009)

Okay, ich versuche mich nun unteranderem an XPATH und bin mal wieder total demotiviert. Ich möchte einfach mal testhalber aus der ersten XML-Datei oben nur die Elemente "node" mit cat="NP" raussuchen. Hab ein kleines Programm zusammengebastelt, aber es klappt vorne und hinten nicht =_=. Hier mal mein bisheriger Code


```
import java.io.IOException;
import java.util.List;
import org.jdom.Document;
import org.jdom.JDOMException;
import org.jdom.input.SAXBuilder;
import org.jdom.output.XMLOutputter;
import org.jdom.xpath.*;


public class jDOMXPATH {


	public static void main(String[] args) {
		
		SAXBuilder builder = new SAXBuilder();  // Build a document ...  
		Document doc = null;
		try {
			doc = builder.build("cd25.xml");
		} catch (JDOMException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}  // ... from a file
		try {
			List ergebnis = XPath.selectNodes( doc, "/sentence//node[@cat='NP']" );
		} catch (JDOMException e1) {
			// TODO Auto-generated catch block
			e1.printStackTrace();
		}
		XMLOutputter output = new XMLOutputter();  // And output the document ... 
		try {
			output.output(doc, System.out);
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}  // ... unchanged to System.out
                           

	}

}
```

Als Fehlermeldung kommt dann folgendes:



> Exception in thread "main" java.lang.NoClassDefFoundError: org/jaxen/JaxenException
> at java.lang.Class.forName0(Native Method)
> at java.lang.Class.forName(Class.java:164)
> at org.jdom.xpath.XPath.newInstance(XPath.java:134)
> ...



Was mach ich alles falsch? Schon mal vielen Dank fürs Draufschauen.


----------



## ARadauer (17. Aug 2009)

wo hast du das code beispiel her?
org/jaxen.. was ist das für ein seltsames Package. Ist nicht ein Dom Parser in der Standard api vorahnden?


----------



## ARadauer (17. Aug 2009)

Galileo Computing :: Java ist auch eine Insel (8. Auflage) – 15 Die eXtensible Markup Language (XML)

schau dir das mal an....


----------



## musiKk (17. Aug 2009)

Man kann seine Beiträge übrigens bearbeiten. Bei zwei Minuten ist ein Doppelpost Quatsch...

Anyway. Wenn auf JDOM verzichtet werden kann, gibt es eine XPath-Implementierung in javax.xml.xpath. Wenn es JDOM sein muss, muss jemand anderes ran. Laut Doku muss allerdings erstmal eine Implementierung ausgewählt werden.


----------



## esmeralda (17. Aug 2009)

Wiedermal Danke für die Antwort . Ja - ich muss noch einiges nacharbeiten... Den Code hatte ich nach einigem Nachschlagen selber programmiert, das Galileo Buch hab ich auch bereits gelesen. Aber Theorie und Praxis sind ja doch immer 2 verschiedene Paar Schuhe. Man muss erst selber Fehler machen, um es selber richtig zu lernen.

Den Fehler hab ich gefunden - muste im Classpath noch 2 jars einbinden. So wirft er mir jetzt keine Fehler mehr. Jetzt muss ich weiter daran arbeiten, dass auch das gewünschte Ergebnis rauskommt. javax.xml.xpath klingt schon mal sehr gut - hatte mir dazu schon was angesehen. Also nochmal Danke für die Ratschläge - bin für jede Hilfe dankbar .


----------

