# XPATH gesucht



## oldshoe (28. Jun 2010)

Hallo,
ich bin in Sachen XPATH ein kompletter Anfänger.
Ich weiß nicht so ganz wie man mein Problem am besten mit XPATH löst.

gegeben:
XHTML-Seite
ein konkreter Knoten z.B. <img href="http://genau_dieses_Bild.de></img>

Aufgabe:
Schauen ob genau dieses Bild eine Überschrift (z.B. <h1>Michael Jackson</h1>) in der Nähe hat, die man diesem zuordnen kann.

Wie löst man das am Besten?
Ich weiß dass man siblingKnoten bzw. parentKnoten auslesen kann und da müsste man nur schauen ob eine Überschrift dabei ist. Aber dafür müsste ich für diesen konkreten mir schon vorliegenden Knoten einen XPATH generieren? Wie geht das?

Bin für jede Hilfe dankbar!


----------



## dayaftereh (29. Jun 2010)

Kannst du mal die xHtml seite Posten! du musst einfach den Pfad wie bei Datei System angeben also so "html/body/img/@href" du kannst aber auch "//h1[text()="Michael Jackson"]" so schaust du ob du ein h1 findest wo der Text = Michael Jackson.


----------



## oldshoe (29. Jun 2010)

Hmmm...naja das Problem ist eher abstrakt zu sehen...hab da jetzt keine konkrete XHTML-Seite.
Mein Idealfall wäre eigentlich, dass ich einen Knoten in einen String konvertieren kann.
Also mit getNodes und den Path: //BODY//IMG bekomme ich erstmal sämtliche img-tags....könnte ich mit contains überprüfen ob mein konkreter imagetag dabei ist... allerdings liegen mir die Nodes (w3c.dom.node) nicht so ideal vor, dass ich sie in einen String
der Form: <img href="http://genau_dieses_Bild.de></img> konvertieren kann.
Hat jemand eine Idee? Sowas muss doch schon mal wer gemacht haben!


----------



## hemeroc (29. Jun 2010)

Bei mir würde diese Abfrage wohl so in etwa aussehen:


```
//img[@href = "http://genau_dieses_Bild.de" AND ./preceding-sibling::h1[text() = "Michael Jackson"]]
```
_Achtung ungetestet!_

Allerdings wäre es hilfreich wenn du
a) das xhtml-File postest und _//EDIT: sry zu langsam gewesen hmm mach dir ein Demo-File das hilft beim testen._
b) uns sagst was du mit "in der Nähe" bei der überschrift meinst. Das kann nämlich je nach dem aufwändiger oder weniger aufwändiger sein.

LG
Hemeroc


----------



## oldshoe (29. Jun 2010)

Für die Node To String Konvertierung habe ich folgendes gefunden.
Das funktioniert soweit auch erstmal.


```
Transformer t = null;
try {
      t = TransformerFactory.newInstance().newTransformer();
      } catch (TransformerConfigurationException e1) {
      // TODO Auto-generated catch block
      e1.printStackTrace();
      } catch (TransformerFactoryConfigurationError e1) {
      // TODO Auto-generated catch block
      e1.printStackTrace();
      }
      StringWriter sw = new StringWriter();
      try {
           t.setOutputProperty(OutputKeys.OMIT_XML_DECLARATION, "yes");
           t.transform(new DOMSource(node), new StreamResult(sw));
           } catch (TransformerException e) {
           // TODO Auto-generated catch block
           e.printStackTrace();
           }
           String yourAnswer = sw.toString();
           yourAnswer = yourAnswer.replace("xmlns=\"http://www.w3.org/1999/xhtml\" ", "");
```


----------



## hemeroc (29. Jun 2010)

OK Alles is interessanter als für meine Statistik Prüfung zu lernen ^^

Testfile:

```
<!DOCTYPE html>
<html>
	<head>
		<title>demo</title>
	</head>
	<body>
		<h1>Nicht Michael Jackson</h1>

		<img href="http://genau_dieses_Bild.de"></img> <!-- Falsche Überschrift -->
	
		<h1>Michael Jackson</h1>

		<img href="http://genau_dieses_Bild.nicht"></img> <!-- Falsches href Attribut -->

		<img href="http://genau_dieses_Bild.de"></img> <!-- dieser Knoten kommt zurück -->

	</body>
</html>
```

Bei der Anfrage:

```
//img[@href = "http://genau_dieses_Bild.de" and preceding-sibling::h1[text() = "Michael Jackson"]]
```

//Edit: irgendwie is mir jetzt ned ganz klar was du willst, ich dachte du willst eine XPath Anfrage? Meine funktioniert auf jeden Fall mal. Du brauchst die Node in keiner Weise in einen String oder what ever zu transformieren.


----------



## oldshoe (29. Jun 2010)

Erstmal vielen Dank für deine Bemühungen.
Ich habe mein Beispiel vom tatsächlichen Anwendungsfall heruntergebrochen.
Eigentlich geht es um <object>-Knoten.
Die für mich relevanten (also z.B. die die eine .swf enthalten) habe ich vorher per regex extrahiert.
Das Problem ist nämlich, dass die swf sowohl als attribut vom object aber auch als childKnoten der Form <param name="movie" value="meinFlash.swf"> gegeben sein kann.

Nun habe ich das Regex-Ergebnis und lasse mir alle object-Nodes liefern. Passt ein object-Node zum RegexKnoten (daher die StringKonvertierung) kann ich schauen ob es previousSiblings mit <h1> oder so gibt oder weiterausschweifend ob der ParentKnoten <h1>-siblings besitzt usw.


----------

