Hallo,
ich habe jetzt schon einige HTML Parser hier im Forum beguckt und bin mir aber beim Sichten der Dokumentation nicht so wirklich schlüssig geworden, welcher denn nun für mein Problem der beste Parser ist. Ich habe in Python mal einen benutzt, der echt schickt war:
Damit hatte ich alle <TD>'s aus der Seite, die als "class" Attribut "std" hatten und in denen noch "onclick" stand. Hat denn schon mal jemand ein ähnliches Problem gelöst?
Also praktisch folgendes Konstrukt möchte ich betrachten, in dem ich den Text "DER_TEXT_INTERESSIERT_MICH" auslesen kann:
<TD CLASS=std onClick="function(386557);">DER_TEXT_INTERESSIERT_MICH</TD>
Alle Ansätze, die ich bis jetzt verfolgt habe, sind alle etwas umfangreicher und nicht so einfach. Deswegen die kurze Frage bevor ich losleg
Thx
Fry
ich habe jetzt schon einige HTML Parser hier im Forum beguckt und bin mir aber beim Sichten der Dokumentation nicht so wirklich schlüssig geworden, welcher denn nun für mein Problem der beste Parser ist. Ich habe in Python mal einen benutzt, der echt schickt war:
Java:
elements = soup.findAll('td', 'std', onclick=True)
Also praktisch folgendes Konstrukt möchte ich betrachten, in dem ich den Text "DER_TEXT_INTERESSIERT_MICH" auslesen kann:
<TD CLASS=std onClick="function(386557);">DER_TEXT_INTERESSIERT_MICH</TD>
Alle Ansätze, die ich bis jetzt verfolgt habe, sind alle etwas umfangreicher und nicht so einfach. Deswegen die kurze Frage bevor ich losleg
Thx
Fry