# HTML code auslesen klappt nicht ganz



## Arp (13. Aug 2006)

Hi!

Ich versuche eine automatische quelltextauslesung zu programmieren.. habe dazu den quelltext von einem user hier verwendet der Wikipediaartikel auslesen wollte benutzt.

Der Code an sich funktioniert... nur krieg ich nicht die Seite die ich haben will, sondern die LogIn Seite.
Obwohl ich mit dem IE eingeloggt bin und den quelltext auslesen kann, werde ich bei der Anfrage mittels Java an die Login seite geschickt.

Hat jemand eine Idee wie man das lösen könnte?

Ich habe zwar eine Idee, aber die hat dann nichts mehr mit quelltexten zu tun..
Automatisierung des IE 

per Java den IE igendwie scripten, so das er eine seite öffnet, quelltext speichert, nächste seite öffnet usw.
Nur hab ich da auch keine Ahnung wie man das realisieren kann.
thx 

edit:
ich hab auch grad festgestellt das das nicht unbedingt an dem java code liegt, denn wenn ich den IE im command shell öffne und dahinter die URL anhänge, springt der auch automatisch zur login seite statt zur seite wo ich hin will.


----------



## Thammi (13. Aug 2006)

Hi,
du musst dich nicht mit dem IE einloggen sondern mit deinem Programm. Falls du in der URL eine Session-ID siehst (ziemlich lange Zeichenkette hinter der eigentlichen Adresse) kannst du die aber auch einfach in dein Programm übernehmen. Ansonsten musst du eben einen Login mit deinem Programm vortäuschen. Am besten eignet sich für so etwas übrigens der HTTP Client aus den Jakarta Commons.
Hab übrigens selber schon mit beiden Methoden auf Websites zugegriffen.

Hoffentlich hilft das weiter.


----------



## Arp (13. Aug 2006)

hmm, nein, das hilft ehrlich gesagt nicht weiter, denn es steht keine session ID da... und jakarta? 

ich kann ja im IE den quelltext problemlaus auslesen... und dann steht in der URL leiste ja ne URL. Da dachte ich ich kann diese eifnach benutzen.


----------



## Thammi (13. Aug 2006)

Wahrscheinlich nutzt die Seite Cookies, also musst du dich wirklich direkt mit dem Programm einloggen. Dazu musst du die Werte per Post (oder Get, je nachdem was die Seite benutzt) so senden wie sie durch den Browser gesendet würden.
Um zu prüfen ob Cookies verwendet werden einfach mal beim Browser die Cookies deaktivieren.

Jakarta Commons HttpClient:
jakarta.apache.org/commons/httpclient/


----------

