Hallo liebes Forum,
zur Zeit versuche ich mit einem Webcrawler die Inhalte von Internetseiten auszulesen und als DOM-Struktur zu analysieren. Hierfür benutze ich den Crawler4J, den ich mit meinen Funktionen erweitert habe. Dieser funktioniert auch soweit. Ich würde aber gerne auf alle Designelemente zugreifen können, wie zb Schriftfarbe, Link Decoration und Font Family. Der Crawler greift jedoch nur auf HTML-Dateien zu. Ich bin leider ziemlicher Anfänger was Java betrifft und finde deshalb leider einfach keinen Ansatz, wie man dieses Problem lösen könnte. Hat vielleicht jemand einen Tipp für mich?
Vielen Dank!
zur Zeit versuche ich mit einem Webcrawler die Inhalte von Internetseiten auszulesen und als DOM-Struktur zu analysieren. Hierfür benutze ich den Crawler4J, den ich mit meinen Funktionen erweitert habe. Dieser funktioniert auch soweit. Ich würde aber gerne auf alle Designelemente zugreifen können, wie zb Schriftfarbe, Link Decoration und Font Family. Der Crawler greift jedoch nur auf HTML-Dateien zu. Ich bin leider ziemlicher Anfänger was Java betrifft und finde deshalb leider einfach keinen Ansatz, wie man dieses Problem lösen könnte. Hat vielleicht jemand einen Tipp für mich?
Vielen Dank!