Quellcode einer HTML Seite erhalten

Status
Nicht offen für weitere Antworten.
M

meck

Gast
Hi.
Ich habe folgendes Problem.
Ich möchte den Quellcode einer HTML Seite parsen.
Dazu müsste ich mir zunächst einmal den Quellcode dieser Seite besorgen.
Das ist alles soweit kein Problem, auch mit Cookie Verwaltung usw. alles kein Problem.

Nur werden einige Teile der Seite dynamisch mittels javascript nachgeladen, und genau dies sind die für mich interessanten Daten. Hat jemand eine Idee, wie ich an den entsprechenden Code komme?

Danke schon mal und Grüße
Daniel
 
S

sebastian4gold

Gast
Also, da giebt es zwei Möglichkeiten.
1. Du könntest mittels Regex die betreffenden JS Aufrufe finden und so deren Ziel einlesen.
Also angenommen, es ist eine Seite, bei der gewisse Wörter bei mouseOver einen
Hilfetext mittels Ajax nachladen, der in einem Layer erscheint, dann kannst du
ja ganz leicht damit Arbeiten.
Also z.B. onmoueover="showHelpFor('Fernsehen');"
und die Nachlade Funkton könnte so aussehen:
funktion showHelpFor(helpstr) {
....load("/helpbox.php?help=" + helpstr); ......

Dann kannst du ja alle onmouseover per regex finden, und die Seite xxx.de/helpbox.php?help=<id>
laden und so hast du deren Inhalt.

2. Die noch schwierigere:
Du baust mit (Mozilla) Rhino (ein JS Interpret in Java geschrieben) einfach alles nach.
So kannst du einen "virtuellen" Besuch auf der Seite simulieren und testen was wann wie passiert. (Das geht dann mit allen Seiten und ist nicht auf eine spezielle Seite festgelegt)

________________________________________________________
Hoffe du kommst klar,
Sebastian
 
M

meck

Gast
Hi.
Danke für deine Antwort. Ich habe ein Sourceforge Projekt namens "htmlunit" jetzt mal ausgecheckt. Das ist zwar eigentlich dazu gedacht Webseiten zu testen, aber für meine Zwecke scheint es bisher zu gehen, da auch ein JS-Interpreter mit an Board ist.
Falls ich damit doch Probleme bekomme, werde ich mal deine beiden Varianten ausprobieren...
Danke nochmal.
Gruß Daniel
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
A Quellcode von Homepage wird nicht komplett eingelesen Netzwerkprogrammierung 5
L30nS RMI Aufruf einer Client-Methode von einem RMI-Server Netzwerkprogrammierung 3
N Link aus einer E-Mail aufrufen Netzwerkprogrammierung 2
N Name eines Attributes aus einem festen String und einer Variablen generieren Netzwerkprogrammierung 5
O HTTP Einloggen auf einer Homepage Netzwerkprogrammierung 8
H Daten auf einer Webseite eintragen Netzwerkprogrammierung 11
Z Debug-Info einer JavaSE Applikation auf Webserver Netzwerkprogrammierung 0
S HTTP Würdet Ihr Euch bei einer intern genutzten Anwendung auf Cookies verlassen? Netzwerkprogrammierung 2
J Hilfe beim programmiern einer App zur Anmeldung im Wlan-Netzwerk Netzwerkprogrammierung 0
C Inhalt einer .JPG Datei in einen OutputStream schreiben? Netzwerkprogrammierung 10
D Überwachen einer SMB-Freigabe bei Änderungen im Dateisystem Netzwerkprogrammierung 0
L FTP Lesen einer Datei vom Server - Aufgehangen Netzwerkprogrammierung 0
M jsf-seite beim hinzufügen einer csv-datei in einen ordner aktualiseren Netzwerkprogrammierung 0
L Ratschlag zur Umsetzung einer client-server-Kommunikation Netzwerkprogrammierung 6
O HTTP Zugriff und Aktionen auf einer Webseite ausführen Netzwerkprogrammierung 9
S Automatischer Login auf einer Webseite Netzwerkprogrammierung 12
D JavaMail: HTML Code einer Mail Netzwerkprogrammierung 9
H Daten an Textfeld einer Webseite schicken Netzwerkprogrammierung 2
D Aus einer URL die Dateien lesen Netzwerkprogrammierung 5
Dit_ RMI RMI-Server und gleichzeitiger Aufruf einer Methode Netzwerkprogrammierung 14
T Ladezeit einer Seite mit HttpURLConnection und Bildern Netzwerkprogrammierung 2
M bild von einer url erzeugen Netzwerkprogrammierung 7
V Quelltaxt einer Website auslesen funktioniert nicht Netzwerkprogrammierung 2
V Angezeigten Text einer Website erfragen Netzwerkprogrammierung 4
P HttpClient - Daten einer Website "unvollständig" Netzwerkprogrammierung 5
A HTTP Download einer Datei mit "Statistiken" Netzwerkprogrammierung 2
S Port auf einer bestimmten IP-Adresse auslesen? Netzwerkprogrammierung 6
S netzwerkprotokoll auf basis einer tcp verbindung erstellen Netzwerkprogrammierung 9
G Kryptische Zeichen beim Auslesen einer Website Netzwerkprogrammierung 11
Ollek Download einer Datei durch SFTP mit Java Netzwerkprogrammierung 12
B Frage zu einer Lösung (RMI) Netzwerkprogrammierung 2
H HTTP Einloggen auf einer HTML (php) Seite Netzwerkprogrammierung 6
P HTTP Problem beim Download von einer Datei Netzwerkprogrammierung 4
L Größe einer Datei auslesen die im Netz liegt Netzwerkprogrammierung 4
DeviAn Über ein Linux Server ein Windows Server nach einer File fragen Netzwerkprogrammierung 6
F Entwicklung einer Software zur Steuerung und Überwachung von Netzwerkgeräten Netzwerkprogrammierung 4
R Versenden einer MIME-Datei per E-Mail [solved] Netzwerkprogrammierung 5
C Problem mit Übertragung einer Klasse in RMI Netzwerkprogrammierung 10
Pithecanthropus Konzeptionelle Ausarbeitung einer synchronen Kommunkation (Server/Client)) Netzwerkprogrammierung 6
A attachment einer Mail speichern Netzwerkprogrammierung 5
C Dateigröße einer Datei im Internet ermitteln Netzwerkprogrammierung 2
J programm zum autom. ausdruck einer webseite Netzwerkprogrammierung 2
E Parameter einer URLConnection Netzwerkprogrammierung 12
G Unvollständiges Laden einer Seite Netzwerkprogrammierung 2
M Rechner einer Domäne auslesen? Netzwerkprogrammierung 3
KNeuhaus (Windows) Authentication VON einer Java-App aus. Netzwerkprogrammierung 2
Rontu Problem beim Übertragen einer Datei Netzwerkprogrammierung 9
D Content einer email in sql-datenbank speichern Netzwerkprogrammierung 9
M RMI direkte Verbindung mit einer Mysql datenbank Netzwerkprogrammierung 13
T Quelltext einer Website auslesen Netzwerkprogrammierung 3
ven000m Frage aus einer mündl. Prüfung - wer kennt die Antwort? Netzwerkprogrammierung 6
J Funktion zum Maskieren der Sonderzeichen einer URL Netzwerkprogrammierung 2
J Zeilenweises auslesen aus einer Datei über Server Netzwerkprogrammierung 6
C RMI: Problem beim Aufruf einer Methode. Falsch gecastet? Netzwerkprogrammierung 8
D Problem beim holen einer PHP-Seite via HttpClient Netzwerkprogrammierung 19
C IP adresse anhand einer domain adresse auslesen / ermitteln Netzwerkprogrammierung 3
V Einen Eintrag aus einer Zip Datei von einem Server laden Netzwerkprogrammierung 2
N Dateigröße einer Datei auf einem HTTP-/Web-Server. Netzwerkprogrammierung 9
V Zuweisen einer InetAddress mit einem byte Netzwerkprogrammierung 5
D Anmelden an einer Windows-Domäne Netzwerkprogrammierung 2
M Suche Klasse um Paramater zu einer URL hinzuzufügen. Netzwerkprogrammierung 3
B Url-Link aus einer E-Mail aufrufen Netzwerkprogrammierung 2
A Abbruch einer Verbindung erkennen? Netzwerkprogrammierung 3
G Performance einer verteilten RMI-Anwendung Netzwerkprogrammierung 4
B Laden einer *.csv Datei von einem Webserver (http-request) Netzwerkprogrammierung 8
clemson Größe einer Heruntergeladenen Datei Netzwerkprogrammierung 10
O Problem bei Überprüfung und Spliten von einer IP! Netzwerkprogrammierung 2
R Änderung einer Seite (Klasse URL) Netzwerkprogrammierung 2
I IP Adresse des Clients einer Socket Verbindung Netzwerkprogrammierung 2
G Redirects einer HttpURLConnection ermitteln Netzwerkprogrammierung 4
M Html Auslesen Netzwerkprogrammierung 6
D WebSocket Server mit HTML Client und Java Server Netzwerkprogrammierung 5
G seite nach posten eines html-forms laden Netzwerkprogrammierung 0
K HTTP Mit Java HTML Codeauslesen um damit zu arbeiten Netzwerkprogrammierung 7
B HTML mit Webserver und Datenbank verbinden Netzwerkprogrammierung 2
K Probleme bei HTML-Mail-Abruf mit IMAP bei 1und1 Netzwerkprogrammierung 2
C Gerenderte Website nach der ausführung von JavaScript als HTML Code aus lesen Netzwerkprogrammierung 4
Z HTTP HTML Element auslesen in Java Netzwerkprogrammierung 1
J Daten von einem HTML-Textfeld abrufen Netzwerkprogrammierung 3
J Json von Html request einlesen Netzwerkprogrammierung 0
X Einfach Server der HTML img Tags austauscht Netzwerkprogrammierung 1
P nanoHttp upload.html page lädt nicht Netzwerkprogrammierung 4
Xendarii HTTP Zeilenumbrüche aus HTML-Textarea entfernen Netzwerkprogrammierung 10
S HTML mit AJAX auslesen Netzwerkprogrammierung 2
Mike90 Mehspaltige HTML Tabelle parsen Netzwerkprogrammierung 3
S HTTP Ausgabe von Java-Inhalten in HTML Netzwerkprogrammierung 6
R HTTP Post HTML Netzwerkprogrammierung 5
Geese HTML Quelltext auslesen ergibt -null- Netzwerkprogrammierung 2
D HTTP html Bildreferenz in responseBody() schreiben Netzwerkprogrammierung 2
B HTTP HTML-Formular aus Java heraus befüllen und bedienen Netzwerkprogrammierung 3
I HTTP Post aus html in Java einlesen - Problem Netzwerkprogrammierung 2
I HTTP Post aus html in Java einlesen - Problem Netzwerkprogrammierung 6
R HTML in FileWriter schreiben Netzwerkprogrammierung 5
M Java-Programm als Webserver erzeugt HTML Netzwerkprogrammierung 8
U2nt Texte bzw. Attribute aus HTML etc. bekommen Netzwerkprogrammierung 2
B HTML meets Servlet Netzwerkprogrammierung 6
S redirected html auslesen Netzwerkprogrammierung 10
L Passwort + HTML und PHP Netzwerkprogrammierung 9
F Welchen HTML Parser soll ich nehmen? Netzwerkprogrammierung 3
B HTML Formularfelder erkennen und ausfüllen Netzwerkprogrammierung 3

Ähnliche Java Themen


Oben