Webcrawler CSS?

Aviendha

Neues Mitglied
Hallo liebes Forum,

zur Zeit versuche ich mit einem Webcrawler die Inhalte von Internetseiten auszulesen und als DOM-Struktur zu analysieren. Hierfür benutze ich den Crawler4J, den ich mit meinen Funktionen erweitert habe. Dieser funktioniert auch soweit. Ich würde aber gerne auf alle Designelemente zugreifen können, wie zb Schriftfarbe, Link Decoration und Font Family. Der Crawler greift jedoch nur auf HTML-Dateien zu. Ich bin leider ziemlicher Anfänger was Java betrifft und finde deshalb leider einfach keinen Ansatz, wie man dieses Problem lösen könnte. :( Hat vielleicht jemand einen Tipp für mich?

Vielen Dank!
 

darekkay

Bekanntes Mitglied
Kenne Crawler4J nicht, aber laut der Seite ist das Crawlen von CSS-Dateien möglich. Sprich: in deiner HTML-Seite nach CSS-Dateien suchen und öffnen.
 

Aviendha

Neues Mitglied
Das mit der shouldVisit-Funktion habe ich auch schon gesehen und der Crawler erkennt auch, dass eine CSS vorhanden ist, er kann allerdings nicht auf die Inhalte der Datei zugreifen, weil sie nicht als DOM-Struktur vorliegen.

Trotzdem Danke schonmal :)
 
Ähnliche Java Themen
  Titel Forum Antworten Datum
doopexxx JAVA Google Webcrawler Allgemeine Java-Themen 1
Q Java WebCrawler Allgemeine Java-Themen 1

Ähnliche Java Themen


Oben