# imdb quelltext einlesen



## SebSnake (26. Jan 2009)

Nabend zusammen.

Ich versuche nun seit Wochen einen Weg zu finden, Informationen von der Seite www.imdb.de bei bestimmten Suchanfragen herausfilten zu können. Bisher ohne Erfolg.

Das hier habe ich schon probiert, bekomme dann aber (wahrscheinlich wegen deren blöden URL-Aufbaus) nur die HTML Fehlermeldung 403 zurückgegeben.

http://www.imdb.de/find?s=all&q=die+hard

So sieht eine URL aus, die ich z.B. nun gerne über einen BufferedReader oder so einlesen würde.
Klappt aber mit oben besagten Beispiel nicht...

Jemand ne Idee?


----------



## musiKk (27. Jan 2009)

Die Seite checkt den User-Agent. Ein einfaches

```
urlc.addRequestProperty("user-agent", "Firefox");
```
reicht da schon (urlc ist die URLConnection).


----------



## Ollek (17. Nov 2010)

Hallo,

hab dort nochmal eine Frage zu.. Immer wenn der user-agentgecheckt wird, kann die Website ohne URLConnection nicht geöffnet werden, weil man dort immer einen 403 Fehler bekommt, richtig?

Sollte man von Anfang an dann auf URLConnection setzen anstatt auf den InputStream und openStream()?

Viele Grüße


----------



## MarderFahrer (17. Nov 2010)

Generell in Bezug auf imdb ist hier ein Auszug aus deren Nutzungbedingungen:


> The data must be taken only from the plain text data made available from our FTP sites (see Alternative Interfaces for more details and for links to our FTP servers).
> *You may not use data mining, robots, screen scraping, or similar online data gathering and extraction tools* on our website.
> If the information/data you want is not present in the data files available from our FTP sites, it means it's not available for non-commercial usage.
> If you do want to use IMDb data for commercial purposes, you must contact our Content Licensing Department at Authoritative and Accurate Information about Movies & Television.



Klingt so, als hätten die was gegen das direkte Auslesen von deren Seiten. Wobei ich mich frage wie die eine Java-Connection unterscheiden wollen von einer normalen Browser Connection.


----------



## Geeeee (17. Nov 2010)

MarderFahrer hat gesagt.:


> Wobei ich mich frage wie die eine Java-Connection unterscheiden wollen von einer normalen Browser Connection.


Wenn du 100-1000 Request pro Sekunde mit nem Browser aufreißen kannst, dann gibts keinen Unterschied.


----------



## Ollek (17. Nov 2010)

Ich frage mich, merken die es überhaupt, wenn dort Daten ausgelesen werden? :rtfm:

und ne andere frage, ich hatte Probleme mit user-agent firefox.. Der hat manchmal die verbindung nicht aufgebaut, als ich den user-agent dann auf Internet Explorer umgestellt habe läufts bis dato sehr fix und auch besser...

Weiß jemand darüber was, warum und wieso?? ???:L


----------



## darekkay (12. Jan 2011)

Ollek hat gesagt.:


> ich hatte Probleme mit user-agent firefox..



Vielleicht hilft dieser Eintrag:

```
connection.setRequestMethod("GET");
```
Bei mir funktioniert's zumindestens so 

Und nein, ich hole einen Thread nicht nur deswegen raus - es wurde bereits geschrieben, dass das *Benutzen* von einem Parser untersagt ist. Wie sieht es nun mit dem Parser selbst aus? Bzw. einem Programm, der die Seite parst? Können die mich (im schlimmsten Fall) verklagen, wenn ich so eine Bibliothek zur Verfügung stelle?


----------

