# HTTP response code: 403



## Noobsickle (21. Feb 2014)

Guten Abend!

Ich bin neu hier und werde in naher Zukunft wohl öfter mal vorbeischauen. :rtfm:

Der Teil meines Programms, der mir Schwierigkeiten bereitet, soll eine Seite aufrufen und dessen Quelltext auslesen und in der Konsole ausgeben. Das funktioniert mehr oder weniger. Der Quelltext scheint nicht ganz vollständig zu sein, aber so genau hab ich mir das noch nicht angesehen, da erst einmal ein wichtigeres Problem besteht.

Die Webseite (öffentlich zugänglich, falls es eine Rolle spielt), die mein Programm später nutzen soll, um die benötigten Daten zu sammeln, verursacht folgenden Fehler:
"java.io.IOException: Server returned HTTP response code: 403 for URL"

- Wie kann ich das umgehen und trotzdem über Java auf die Webseite zugreifen?
- Gibt es eine andere Möglichkeit, als den gesamten Quelltext auszulesen, um an die Daten heranzukommen?

Das Programm soll später, wenn es fertig ist, bestimmte Daten vom Quellcode der Webseite extrahieren und ausgeben, damit ich sie in einer Tabelle anlegen und weiterverarbeiten kann. Das ganze soll circa jeden Monat passieren und ist viel zu viel Aufwand, um per Hand erledigt zu werden, deshalb auch dieses Tool.

Grüße,
Noob


----------



## JavaMeister (21. Feb 2014)

Hallo,

2 Sekunden google:

HTTP-Statuscode ? Wikipedia

Siehe 403 => Forbidden.



> - Wie kann ich das umgehen und trotzdem über Java auf die Webseite zugreifen?



Dich authentifizieren.



> - Gibt es eine andere Möglichkeit, als den gesamten Quelltext auszulesen, um an die Daten heranzukommen?



Ja. Wurde allein heute gefühlt 100 mal gefragt wie das geht. 



> Das Programm soll später, wenn es fertig ist, bestimmte Daten vom Quellcode der Webseite extrahieren und ausgeben, damit ich sie in einer Tabelle anlegen und weiterverarbeiten kann. Das ganze soll circa jeden Monat passieren und ist viel zu viel Aufwand, um per Hand erledigt zu werden, deshalb auch dieses Tool.



Nice. Hat bisher noch nie jemand gemacht. Deswegen blockt die Seite auch automatische Crowler, wie man oben sehen kann.

Und das führt zu:



> ie Webseite (öffentlich zugänglich, falls es eine Rolle spielt),



Möglich. Aber nicht für Bots.


----------



## Noobsickle (21. Feb 2014)

JavaMeister hat gesagt.:


> Hallo,
> 
> 2 Sekunden google:
> 
> ...



Danke, gegoogelt habe ich auch schon (zugegeben, nicht sonderlich lang). Im Wikipedia Artikel steht: "Diese Entscheidung wurde unabhängig von Authentifizierungsinformationen getroffen,". Bedeutet das nicht mit anderen Worten, dass eine Authentifizierung gar nicht möglich ist? Wenn ich da falsch liege, wie kann ich mich authentifizieren? 

Sorry, dass ich wohl eine häufige Frage gestellt habe. Welche anderen Möglichkeiten neben der Ausgabe des gesamten Quelltextes gibt es noch?


----------



## Noobsickle (21. Feb 2014)

Hab's hinbekommen. 
Ich habe einfach Folgendes eingebaut:

```
urlcon.addRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)");
```

Nun aber noch die Frage, ob ich das auch "schicker" lösen kann, anstatt Seitenweise Quelltext auszulesen.


----------

