imdb quelltext einlesen

Status
Nicht offen für weitere Antworten.

SebSnake

Mitglied
Nabend zusammen.

Ich versuche nun seit Wochen einen Weg zu finden, Informationen von der Seite www.imdb.de bei bestimmten Suchanfragen herausfilten zu können. Bisher ohne Erfolg.

Das hier habe ich schon probiert, bekomme dann aber (wahrscheinlich wegen deren blöden URL-Aufbaus) nur die HTML Fehlermeldung 403 zurückgegeben.

http://www.imdb.de/find?s=all&q=die+hard

So sieht eine URL aus, die ich z.B. nun gerne über einen BufferedReader oder so einlesen würde.
Klappt aber mit oben besagten Beispiel nicht...

Jemand ne Idee?
 

musiKk

Top Contributor
Die Seite checkt den User-Agent. Ein einfaches
Code:
urlc.addRequestProperty("user-agent", "Firefox");
reicht da schon (urlc ist die URLConnection).
 

Ollek

Bekanntes Mitglied
Hallo,

hab dort nochmal eine Frage zu.. Immer wenn der user-agentgecheckt wird, kann die Website ohne URLConnection nicht geöffnet werden, weil man dort immer einen 403 Fehler bekommt, richtig?

Sollte man von Anfang an dann auf URLConnection setzen anstatt auf den InputStream und openStream()?

Viele Grüße
 

MarderFahrer

Gesperrter Benutzer
Generell in Bezug auf imdb ist hier ein Auszug aus deren Nutzungbedingungen:
The data must be taken only from the plain text data made available from our FTP sites (see Alternative Interfaces for more details and for links to our FTP servers).
You may not use data mining, robots, screen scraping, or similar online data gathering and extraction tools on our website.
If the information/data you want is not present in the data files available from our FTP sites, it means it's not available for non-commercial usage.
If you do want to use IMDb data for commercial purposes, you must contact our Content Licensing Department at Authoritative and Accurate Information about Movies & Television.

Klingt so, als hätten die was gegen das direkte Auslesen von deren Seiten. Wobei ich mich frage wie die eine Java-Connection unterscheiden wollen von einer normalen Browser Connection.
 

Ollek

Bekanntes Mitglied
Ich frage mich, merken die es überhaupt, wenn dort Daten ausgelesen werden? :rtfm:

und ne andere frage, ich hatte Probleme mit user-agent firefox.. Der hat manchmal die verbindung nicht aufgebaut, als ich den user-agent dann auf Internet Explorer umgestellt habe läufts bis dato sehr fix und auch besser...

Weiß jemand darüber was, warum und wieso?? ???:L
 

darekkay

Bekanntes Mitglied
ich hatte Probleme mit user-agent firefox..

Vielleicht hilft dieser Eintrag:
Java:
connection.setRequestMethod("GET");
Bei mir funktioniert's zumindestens so ;)

Und nein, ich hole einen Thread nicht nur deswegen raus - es wurde bereits geschrieben, dass das Benutzen von einem Parser untersagt ist. Wie sieht es nun mit dem Parser selbst aus? Bzw. einem Programm, der die Seite parst? Können die mich (im schlimmsten Fall) verklagen, wenn ich so eine Bibliothek zur Verfügung stelle?
 
Status
Nicht offen für weitere Antworten.

Ähnliche Java Themen


Oben