W
wikipedianer
Gast
Hallo,
ich weiß nicht ob ich hier mit meiner Frage ganz richtig bin. Habe ein kurzes "Programm" geschrieben das den HTML-Quelltext der Webseiten auslesen soll. Wenn ich als startseite="http://www.amazon.de" eingebe wird der HTML Quelltext ausgegeben.Habe es mit anderen Webseiten versucht, da klappt des auch.
Mein Problem ist wenn ich Seiten von Wikipedia auslesen möchte, wird meine Anfrage immer vom Server mit dem Response-Code 403 zurückgewiesen. Habe dieselben Wikipedia-Adressen eingegeben die von meinem Firefoxbrowser
korrekt angezeigt wurden, diese an die Variable startseite übergeben und ich bekam jedesmal den Responsecode 403, also verboten.
Also meine Vermutung ist, dass Wikipedia nur einen Aufruf von einem Browser zulässt. In dem Fall müßte man Wikipedia vorgaukeln, mein Programm sei ein Browser. Aber das ist sicher nicht so leicht zu realisieren.
Habe auch versucht mit Sockets Seiten von Wikipedia auszulesen, aber auch des ist gescheitert.
Vielleicht hat jemand im Forum Erfahrung im Auslesen von Wikipediaseiten und hat einen Hinweis.
Ich hoffe ich bin hier richtig mit meiner Frage.
Gruß
ich weiß nicht ob ich hier mit meiner Frage ganz richtig bin. Habe ein kurzes "Programm" geschrieben das den HTML-Quelltext der Webseiten auslesen soll. Wenn ich als startseite="http://www.amazon.de" eingebe wird der HTML Quelltext ausgegeben.Habe es mit anderen Webseiten versucht, da klappt des auch.
Mein Problem ist wenn ich Seiten von Wikipedia auslesen möchte, wird meine Anfrage immer vom Server mit dem Response-Code 403 zurückgewiesen. Habe dieselben Wikipedia-Adressen eingegeben die von meinem Firefoxbrowser
korrekt angezeigt wurden, diese an die Variable startseite übergeben und ich bekam jedesmal den Responsecode 403, also verboten.
Also meine Vermutung ist, dass Wikipedia nur einen Aufruf von einem Browser zulässt. In dem Fall müßte man Wikipedia vorgaukeln, mein Programm sei ein Browser. Aber das ist sicher nicht so leicht zu realisieren.
Habe auch versucht mit Sockets Seiten von Wikipedia auszulesen, aber auch des ist gescheitert.
Vielleicht hat jemand im Forum Erfahrung im Auslesen von Wikipediaseiten und hat einen Hinweis.
Ich hoffe ich bin hier richtig mit meiner Frage.
Gruß
Code:
import java.io.*;
import java.net.*;
import java.util.Scanner;
public class ArtikelUrlsErmittler {
/**
* @param args
*/
final static String startseite="http://de.wikipedia.org/wiki/Hilfe:MediaWiki";
public static void main(String[] args) {
// TODO Auto-generated method stub
URL url;
try {
url = new URL(startseite);
HttpURLConnection huc=(HttpURLConnection) url.openConnection();
huc.setConnectTimeout(30000);
if (huc.getResponseCode() == HttpURLConnection.HTTP_OK)
{
InputStream is=url.openStream();
Scanner in=new Scanner(is);
while(in.hasNextLine())
{
String line=in.nextLine();
System.out.println(line);
}
}
else
{
//Nicht okay...
System.out.println(huc.getResponseCode());
}
} catch (MalformedURLException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}catch(IOException e)
{
e.toString();
}catch(Exception e)
{
e.toString();
e.printStackTrace();
}
}
}