Welchen HTML Parser soll ich nehmen?

Status
Nicht offen für weitere Antworten.

Fry

Aktives Mitglied
Hallo,

ich habe jetzt schon einige HTML Parser hier im Forum beguckt und bin mir aber beim Sichten der Dokumentation nicht so wirklich schlüssig geworden, welcher denn nun für mein Problem der beste Parser ist. Ich habe in Python mal einen benutzt, der echt schickt war:
Java:
elements = soup.findAll('td', 'std', onclick=True)
Damit hatte ich alle <TD>'s aus der Seite, die als "class" Attribut "std" hatten und in denen noch "onclick" stand. Hat denn schon mal jemand ein ähnliches Problem gelöst?

Also praktisch folgendes Konstrukt möchte ich betrachten, in dem ich den Text "DER_TEXT_INTERESSIERT_MICH" auslesen kann:
<TD CLASS=std onClick="function(386557);">DER_TEXT_INTERESSIERT_MICH</TD>

Alle Ansätze, die ich bis jetzt verfolgt habe, sind alle etwas umfangreicher und nicht so einfach. Deswegen die kurze Frage bevor ich losleg :)

Thx
Fry
 

musiKk

Top Contributor
Java ist keine dynamische Sprache wie Python, daher werden wahrscheinlich alle Lösungen etwas komplexer sein. Ich habe bisher htmlparser verwendet. Dort kann man per NodeFilter alle Nodes eines HTML-Dokuments suchen, die ein bestimmtes Prädikat erfüllen sollen.
 

Fry

Aktives Mitglied
Hallo,

ich habe das jetzt wie folgt gelöst (für den Fall, dass es noch jemand gebrauchen kann):
Java:
...
tableFilter = new NodeClassFilter (TableColumn.class);
        
		completeFilter = new AndFilter (
				tableFilter,
                new NodeFilter ()
                {
                    public boolean accept (Node node)
                    {
                    	String text = (node).getText();
                    	return text.contains("CLASS=std onClick=");
                        
                    }
                }
            );
...
dann
Java:
...
parser = new Parser (url);
list = parser.extractAllNodesThatMatch (completeFilter);
...
und dann kann man mit
Java:
...
list.elementAt (i).toPlainTextString()
...
auch noch ganz bequem nur auf den Inhalt des </TD>hier der Text</TD> zugreifen ohne die störenden <td> tags :)

Gruß
Fry
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
Rudolf Socket An welchen Port sendet ein Mailserver zu einem anderen Mailserver Netzwerkprogrammierung 8
C Über welchen Netzwerkadapter kommt mein receive? Netzwerkprogrammierung 15
M Html Auslesen Netzwerkprogrammierung 6
D WebSocket Server mit HTML Client und Java Server Netzwerkprogrammierung 5
G seite nach posten eines html-forms laden Netzwerkprogrammierung 0
K HTTP Mit Java HTML Codeauslesen um damit zu arbeiten Netzwerkprogrammierung 7
B HTML mit Webserver und Datenbank verbinden Netzwerkprogrammierung 2
K Probleme bei HTML-Mail-Abruf mit IMAP bei 1und1 Netzwerkprogrammierung 2
C Gerenderte Website nach der ausführung von JavaScript als HTML Code aus lesen Netzwerkprogrammierung 4
Z HTTP HTML Element auslesen in Java Netzwerkprogrammierung 1
J Daten von einem HTML-Textfeld abrufen Netzwerkprogrammierung 3
J Json von Html request einlesen Netzwerkprogrammierung 0
X Einfach Server der HTML img Tags austauscht Netzwerkprogrammierung 1
P nanoHttp upload.html page lädt nicht Netzwerkprogrammierung 4
Xendarii HTTP Zeilenumbrüche aus HTML-Textarea entfernen Netzwerkprogrammierung 10
S HTML mit AJAX auslesen Netzwerkprogrammierung 2
Mike90 Mehspaltige HTML Tabelle parsen Netzwerkprogrammierung 3
S HTTP Ausgabe von Java-Inhalten in HTML Netzwerkprogrammierung 6
D JavaMail: HTML Code einer Mail Netzwerkprogrammierung 9
R HTTP Post HTML Netzwerkprogrammierung 5
Geese HTML Quelltext auslesen ergibt -null- Netzwerkprogrammierung 2
D HTTP html Bildreferenz in responseBody() schreiben Netzwerkprogrammierung 2
B HTTP HTML-Formular aus Java heraus befüllen und bedienen Netzwerkprogrammierung 3
I HTTP Post aus html in Java einlesen - Problem Netzwerkprogrammierung 2
I HTTP Post aus html in Java einlesen - Problem Netzwerkprogrammierung 6
R HTML in FileWriter schreiben Netzwerkprogrammierung 5
M Java-Programm als Webserver erzeugt HTML Netzwerkprogrammierung 8
U2nt Texte bzw. Attribute aus HTML etc. bekommen Netzwerkprogrammierung 2
B HTML meets Servlet Netzwerkprogrammierung 6
H HTTP Einloggen auf einer HTML (php) Seite Netzwerkprogrammierung 6
S redirected html auslesen Netzwerkprogrammierung 10
L Passwort + HTML und PHP Netzwerkprogrammierung 9
B HTML Formularfelder erkennen und ausfüllen Netzwerkprogrammierung 3
A html - E-mail - Bilder Netzwerkprogrammierung 4
N HTML-Übertragung im lokalen Netzwerk mit Java - wie? Netzwerkprogrammierung 6
S Mittels Java XML abfragen und nicht die Ausgabe-HTML-Datei Netzwerkprogrammierung 5
H HTML-Mails mit JavaMail API Netzwerkprogrammierung 3
M Wie läd man eine HTML Seite in Java runter Netzwerkprogrammierung 2
Z HTML sent by doPost Netzwerkprogrammierung 2
T verbindung zu skript (wie html-formular) Netzwerkprogrammierung 2
A HTML code auslesen klappt nicht ganz Netzwerkprogrammierung 3
M Quellcode einer HTML Seite erhalten Netzwerkprogrammierung 2
M html Code darstellen Netzwerkprogrammierung 2
flashfactor Frage zu HTML-Response Netzwerkprogrammierung 4
T Html-Source über URL in einen String speichern? Netzwerkprogrammierung 16
G Java Chat mit HTML Cleint Netzwerkprogrammierung 3
C POST-Parameter aus HTML-Script lesen Netzwerkprogrammierung 1

Ähnliche Java Themen


Oben