# HtmlUnit  XPath



## Goldfish (13. Sep 2012)

Hey, ich habe hier vor kurzem den Tipp bekommen, dass ich mit htmlUnit auf Internetseiten agieren kann und probiere da aktuell entsprechend rum, in der Hoffnung, soweit zu kommen, dass ich für meine Zwecke alles machen kann.
Jedoch habe ich nun das Problem, dass ich beim abrufen eines XPaths immer eine leere Liste zurück bekomme. Ich hab schon verschiedene Dinge versucht und mehrere Syntaxvarianten ausprobiert und immer nur eine leere Liste...

Mein TestProgramm sieht aktuell wie folgt aus


```
public class NetController extends JFrame{

    private HtmlPage currentPage;

    public NetController(){
//        setSize(new Dimension(800,600));
//        setVisible(true);
        final WebClient webClient = new WebClient();
        try {
            currentPage = webClient.getPage("https://www.amazon.de");
        } catch (IOException ex) {
            Logger.getLogger(NetController.class.getName()).log(Level.SEVERE, null, ex);
        } catch (FailingHttpStatusCodeException ex) {
            Logger.getLogger(NetController.class.getName()).log(Level.SEVERE, null, ex);
        }
    }
    
    public Page getHomePage(String ean) throws Exception {

        final HtmlInput element = (HtmlInput) 
                              currentPage.getElementById("twotabsearchtextbox");

        element.setValueAttribute(ean);        
        
        final HtmlPage page2 = (HtmlPage) element.type((char)10);
        
        final List<HtmlElement> link =  (List<HtmlElement>) 
                                        page2.getByXPath("//div[@class='productImage']");
        
        System.out.println(page2);
        System.out.println(link.size());
        
        return page2;
    }
    
    public static void main(String[] args) {
        try {
            NetController net = new NetController();
            net.getHomePage("asterix");
            
        } catch (Exception ex) {
            Logger.getLogger(NetController.class.getName()).log(Level.SEVERE, null, ex);
        }
    }
}
```

Hier geht es um zeile 27, in der der XPath angegeben wird. Meine unten Konsolenausgaben sehen im übrigen noch wie folgt aus:

HtmlPage(Amazon.de: asterix)@32587492
0

Mein SCHLUSSENDLICHES Ziel ist es, alle Links der Suchresultate der aktuellen Seite in der liste unter zu kriegen. Bisher hab ich nur versucht überhaupt irgendwas in der Liste unterzukriegen. Allerdings ohne Erfolg...
Hat jemand ne Ahnung, was ich falsch mache?


----------



## nillehammer (14. Sep 2012)

Mit dem dargestellten XPath-Ausdruck suchst Du nach div-elementen, welche ein class-Attribut "productImage" haben. Nach kurzer Durchsicht des HTML-Quellcodes der von dir verlinkten Amazon-Seite, gibt es solche divs nicht. Ich habe nur img-Elemente mit entsprechendem class-Attribut gefunden


----------



## nillehammer (14. Sep 2012)

Und zu dem, was Du eigentlich willst (Result-Links rausfinden). Ich habe mir die Struktur der Amazon-Seite noch etwas weiter angeschaut. Die ist ja schon recht chaotisch. Aber es scheint so zu sein, dass Results u.a. auch so dargestellt werden:

```
<div id="result_13" class="rslt" name="377040016X">
  <div class="image">
    <a href="http://www.amazon.de/Asterix-Geb-Bd-16-bei-Schweizern/dp/377040016X/ref=sr_1_14?ie=UTF8&qid=1347624703&sr=8-14">
      ...
    </a>
  </div>
  ...
</div>
```
Das heißt, folgender XPath-Ausdruck müsste es eigentlich tun:
[XML]
//div[@class='rslt']/div[@class='image']/a[1]
[/XML]
Ist ungetestet, aber was ich damit ausdrücken will ist: Selektiere das erste a-Element, welches Kindelement eines divs mit class "image" ist, welches wiederum Kindelement eines divs mit class "rslt" ist.


----------



## Goldfish (14. Sep 2012)

super, mit deiner Variante klappt es. Also ich bin auf meine Idee überhaupt erst gekommen, weil ich mir den Quelltext der Seite runtergeladen hatte und dann durchgeschaut habe, um die entsprechenden Einträge zu finden.
Mein Fund sah folgendermaßen aus:



```
<div class="productImage"><a href="http://www.amazon.de/Asterix-Jubil%C3%A4umsedition-DVDs-Leo-Bardischewski/dp/B001O3AHVO"> <img src="http://ecx.images-amazon.com/images/I/51vV6Hvb0pL._SL160_AA115_.jpg" class="" border="0" alt="Produkt-Information "  width="115" height="115"/> </a></div>
<div class="productData">

  <div class="productTitle"><a href="http://www.amazon.de/Asterix-Jubil%C3%A4umsedition-DVDs-Leo-Bardischewski/dp/B001O3AHVO"> Asterix - Jubiläumsedition [7 DVDs]</a> <span class="binding"> ~ Leo Bardischewski und Lucien Raimbourg</span><span class="binding"> (<span class="format">DVD</span> - 2009)</span></div>




<div class="newPrice"><a href="http://www.amazon.de/Asterix-Jubil%C3%A4umsedition-DVDs-Leo-Bardischewski/dp/B001O3AHVO">Neu kaufen</a>:&nbsp;<span>EUR 24,82</span></div>
<div class="usedPrice">&nbsp;</div>
<div class="usedNewPrice"><div class="subPrice">45 neu ab <span>EUR 21,40</span></div>
<div class="subPrice">4 gebraucht ab <span>EUR 20,40</span></div><br/></div>
```


So bin ich dann auch auf das productImage gekommen. Von dem, was du dort aufgeführt hast, habe ich gar nichts gefunden... daher bin ich mir nicht so wirklich sicher, was da bei mir jetzt so schief geaufen ist...


----------



## nillehammer (14. Sep 2012)

Das mit der Quelltext-Ansicht im Browser ist sone Sache. Ist in den unterschiedlichen Browsern immer etwas anders. Gerade, wenn viel Content erst über JavaScript zusammengebaut wird. Am besten finde ich da die Plugins des Firefox (Hab ich hier grad nicht, aber ich glaube DOM-Browser heißt das Ding). Da sieht man wirklich alle Elemente des DOM. Egal, ob direkt im Quelltext oder erst durch JavaScript dynamisch eingefügt.


----------



## Goldfish (14. Sep 2012)

okay, ich hab mir das ganze jetzt mal mit dem Dom-Browser angesehen und die amazon Seite Stück für Stück weiter runtergelöscht, bis ich wusste, wie der Pfad auf die Suchresultate läuft.
Klappt echt super.
Jetzt muss ich nur noch schauen, ob ich das auch vernünftig umgesetzt bekomme.
Der Dom-Browser war auf jedenFall ein super Tipp.
Danke vielmals.
Ich denke hier komm ich nun wieder alleine klar ^^ hoffe ich zumindest ^^


----------

