# Crawlen von Websites



## Marc T. (2. Apr 2012)

Hallo,

nur eine kleine Frage zum Crawlen von Webseiten.

Ist es wichtig das Übertragungsprotokoll der Webseiten (z.B. HTTP oder HTTPS)
zu überprüfen?

Wenn Ja, Warum?

Grüße


----------



## SlaterB (2. Apr 2012)

keine Java-Basics-Frage, selbst für Java an sich fraglich,
verschoben


----------



## Marc T. (3. Apr 2012)

Okay scheint nicht sehr verbreitet zu sein das Thema.

Ein Crawler holt sich Internetseiten aus dem Web beginnend
bei einer Startadresse (URI). Beispielsoftware wäre wget.

Das ich auf Robots.txt überprüfen muss und ob es überhaupt
HTML-Inhalte sind weiß ich, wie gesagt weiß ich nur nicht ob
ich auch das Übertragungsprotokoll prüfen muss.


----------



## TheDarkRose (3. Apr 2012)

Wir wissen was ein Crawler ist und tut. Die Frage ist eher, warum solltest du überprüfen wollen ob HTTP oder HTTPS verwendet wird.?


----------



## XHelp (3. Apr 2012)

Wenn eine Seite https verwendet, muss du https verwenden. Wenn eine Seite http verwendet, muss du http verwenden.
Ich verstehe die Frage nicht ganz.


----------



## ARadauer (3. Apr 2012)

Marc T. hat gesagt.:


> Wenn Ja, Warum?


Ja weil eventuell die inhalte für http nicht verfügbar sind...


----------



## Marc T. (3. Apr 2012)

Meine Frage kommt daher, dass ich vor ein paar Tagen diesen Link
gelesen habe (der jetzt leider nicht mehr verfügbar ist)

http://java.sun.com/developer/technicalArticles/ThirdParty/WebCrawler/

Auf dieser Seite wurde der grobe Algorithmus eines WebCrawlers beschrieben
und dort wurde unter anderem der Punkt genannt, dass man das Übertragungs-
protokoll überprüfen muss. So komm ich zu meiner Frage.


----------



## SlaterB (3. Apr 2012)

der Quelltext könnte 
http://www.harding.edu/fmccown/classes/comp475-s09/WebCrawler.java.txt
sein, allerdings ohne entsprechende Berücksichtigungen,

grundsätzlich ist eine Webseite mal über http, mal über https zu erreichen,
wie kann da diese Frage nicht wichtig oder unklar sein?

ein Taxiunternehmer auf Expansionskurs darf doch auch Fragen, ob in der neuen Welt Straßen oder Schienen vorhanden sind


----------



## Marc T. (3. Apr 2012)

Weil ich mir gedachte habe, dass ich die Startadresse eingebe und dann nur
innerhalb der Domain sucht. Das heißt in dem Moment in dem er auf einen Link
trifft bei dem die Domain verlassen wird, überspringt er diesen Link.

Bsp:

1. Startdomain: http://www.test-seite.de
2. Startdomain wird gecrawlt
3. Gefundener Link: http://www.test-seite.de/tiefe_1
4. Gefundener Link wird gecrawlt
5. Gefundenen Link: http://www.verlasse-test.de
6. Gefundenen Link überspringen
7.....

Wenn ich die suche nicht auf die Domain beschränke, könnte es unter Umständen
passieren, dass ich bei entsprechnder Setzung der Start URI's (können mehrere sein)
das gesamte Internet Crawle.....

Das ist natürlich nur rein theoretisch.

Und wenn ich immer auf der gleichen Domain bleibe, warum muss ich dann das
Protokoll testen? Das Beispiel was du gerade gepostet hast, bleibt auch immer
auf der selben Domain.


----------



## SlaterB (3. Apr 2012)

von 'immer auf der gleichen Domain bleiben' war in deiner ursprünglichen Frage nicht die Rede,
wie wo wann warum getestet wird ist in pauschaler Frage reichlich unklar,

ich persönlich habe keine Vorstellung was du, der nicht mehr vorhandene Link oder die Welt allgemein dazu sagt,
nur ist grundsätzlich interessant, wie eine Webseite arbeitet,

und selbst auf einer http-Seite kann übrigens ein https-Link vorhanden sein, etwa zum Online-Banking von der Werbe-Homepage einer Bank

Achtung Werbung:
'http://  ww w.deutsche-bank.de/index.htm'
-> 'https://  meine.deutsche-bank.de/'
falls das nicht zu deinen Verlassen-Punkt zählt


----------

