Guten Tag zusammen,
ich interessiere mich derzeit sehr für das Thema Informationen aus dem WWW zu beschaffen. Dafür würde ich mir sehr gerne meinen eigenen Web Crawler / Sraper bauen. So weit so gut, nur finde ich keine Lösung um eine Webseite komplett durchlaufen zu können. Habe auch bei google etc. nichts gefunden zu diesem Thema.
Kennt jemand einen Algorithmus denn man umsetzten kann in Java um zu gewährleisten eine Webseite komplett zu durchlaufen?
Es gibt Webseit-Copy Tools, diese sollten doch einen solchen Algorithmus implementiert haben um eben die Funktionsweise des Tools zu gewährleisten (sonst kopiere ich eben auch nicht die Gesamte Webseite :-D).
Vielleicht habe ich ja Glück und jemand von euch kennt sich mit diesem Thema aus
Meine Idee bzw. umgesetzter Ansatz ist dieser:
Gibt es eine Möglichkeit das ganze über die Graphentheorie zu lösen, indem wir den Einstiegspunkt des Verzeichnis (die Übergebene URL) betrachten und von dieser dann Absteigen?
Das ganze Funktioniert dann bspw. bei Wikipedia nicht, zumindest fällt mir keine Lösung ein! Denn wenn eine URL übergeben wird wie z. B.: https://en.wikipedia.org/wiki/Albert_Einstein dann sammeln wir sämtliche Links von dort doch der Einstigspunkt der Seite ist doch Theoretisch dieser hier: https://en.wikipedia.org/wiki/ ODER? :-D
Ich hoffe man versteht mein Anliegen und jemand weiß wie es geht und kann mir Helfen
ich interessiere mich derzeit sehr für das Thema Informationen aus dem WWW zu beschaffen. Dafür würde ich mir sehr gerne meinen eigenen Web Crawler / Sraper bauen. So weit so gut, nur finde ich keine Lösung um eine Webseite komplett durchlaufen zu können. Habe auch bei google etc. nichts gefunden zu diesem Thema.
Kennt jemand einen Algorithmus denn man umsetzten kann in Java um zu gewährleisten eine Webseite komplett zu durchlaufen?
Es gibt Webseit-Copy Tools, diese sollten doch einen solchen Algorithmus implementiert haben um eben die Funktionsweise des Tools zu gewährleisten (sonst kopiere ich eben auch nicht die Gesamte Webseite :-D).
Vielleicht habe ich ja Glück und jemand von euch kennt sich mit diesem Thema aus
Meine Idee bzw. umgesetzter Ansatz ist dieser:
- Besuche eine Übergebene Internetseite (mithilfe von jsoup)
- Sammel Alle Links von dieser Seite (funktioniert sehr gut mit jsoup)
- Sortiere alle Links aus die nicht zur Seite gehören
- Speichere die Links in eine PostgreSQL Tabelle
- Speichere die besuchten Links in eine zweite PostgreSQL Tabelle
Gibt es eine Möglichkeit das ganze über die Graphentheorie zu lösen, indem wir den Einstiegspunkt des Verzeichnis (die Übergebene URL) betrachten und von dieser dann Absteigen?
Das ganze Funktioniert dann bspw. bei Wikipedia nicht, zumindest fällt mir keine Lösung ein! Denn wenn eine URL übergeben wird wie z. B.: https://en.wikipedia.org/wiki/Albert_Einstein dann sammeln wir sämtliche Links von dort doch der Einstigspunkt der Seite ist doch Theoretisch dieser hier: https://en.wikipedia.org/wiki/ ODER? :-D
Ich hoffe man versteht mein Anliegen und jemand weiß wie es geht und kann mir Helfen