# Websites kopieren



## 0din (1. Sep 2009)

Gutn morgen,

Ich werd grade vor ne recht unlustige aufgabe gestellt...

ich soll nen prog basteln, das webseiten kopiert un offline verfügbar macht.
nur ehrlich gesagt hab ich keine idee wie ich an den html quellcode komme, mit einem java prog.

Von daher die frage, womit kann ich den quellcode auslesen oder besser noch, die ordnerstruktur hinter z.b. "http://www.java-forum.org/" nach files scannen?


----------



## ARadauer (1. Sep 2009)

so ungefähr...


```
URL url = new URL("http://www.java-forum.org");
		
		InputStream is =  url.openConnection().getInputStream();
		BufferedReader reader = new BufferedReader(new InputStreamReader(is));
		try {
			
			String line = null;
			while((line=reader.readLine())!=null){
				System.out.println(line);
			}
		}finally{
			reader.close();
		}
```

wobei es wahrscheinlich schon fertige crawler gibt


----------



## bygones (1. Sep 2009)

ARadauer hat gesagt.:


> wobei es wahrscheinlich schon fertige crawler gibt


v.a. da man durch einfaches lesen ja nicht wirklich weiter kommt (bilder / links etc speichern)


----------



## 0din (1. Sep 2009)

durch einfaches lese nich aber man kann ja auf bestimmte teile vom html code suchen un damit auch bilder / links erfassen... 
kann ich denn bilder auch so simpel ziehn? (bufferedreader auf die datei loslassen)


----------



## bygones (1. Sep 2009)

0din hat gesagt.:


> durch einfaches lese nich aber man kann ja auf bestimmte teile vom html code suchen un damit auch bilder / links erfassen...
> kann ich denn bilder auch so simpel ziehn? (bufferedreader auf die datei loslassen)



einfaches link verfolgen geht bei statischen seite moeglicherweise... bei dynamischen wirst du damit aber scheitern.
[c]http://www.foobar/show.php?image=01&picture=hdg6734[/c] wo liegt nun das Bild manifestiert vor ?!


----------



## 0din (1. Sep 2009)

gut, das könnte nen problem sein... einzige lösung die mir innen sinn käme: 
einfach alles ziehn
also nur externe links ausfiltern (damit ich nich das ganze www ziehe) un ansonsten einfach die komplette ordnerstruktur mit allen files ziehn un lokal nachbaun
hat den vorteil das ich nich 20 bilder von 5 anderen webseiten lade


----------



## bygones (1. Sep 2009)

0din hat gesagt.:


> also nur externe links ausfiltern (damit ich nich das ganze www ziehe) un ansonsten einfach die komplette ordnerstruktur mit allen files ziehn un lokal nachbaun


- du wirst moeglicherweise nie die komplette ordnerstruktur wissen
- du wirst moeglicherweise keine rechte haben da mal reinzupfuschen

bygones

ich wuerde auch empfehlen schon vorhandenen Crawler zu nutzen, macht manches einfacher


----------



## 0din (1. Sep 2009)

ich hab mal nach fertigen crawlern geschaut bzw. bin gleich über Lucene gestolpert.

Nun die Frage, wie hilft mir ein prog das indexiert?
Wobei ich davon ausgehe das ganze nich recht zu verstehn...


----------



## bygones (1. Sep 2009)

0din hat gesagt.:


> ich hab mal nach fertigen crawlern geschaut bzw. bin gleich über Lucene gestolpert.
> 
> Nun die Frage, wie hilft mir ein prog das indexiert?
> Wobei ich davon ausgehe das ganze nich recht zu verstehn...



du meinst apache lucene ? nene der hat mit webcrawling nix zu tun

eher Welcome to Apache Droids

Web crawler - Wikipedia, the free encyclopedia findest du ein paar links und programme


----------



## faetzminator (1. Sep 2009)

schau dir mal wget (GNU Wget) an


----------



## 0din (1. Sep 2009)

ich habs mir mal n wenig angesehn...

das Gnu Wget is mir n absolutes rätsel, da raff ich nix von ???:L


Apache Droids sieht nett aus aber überfordert mich irgendwie.
Gibts dabei nich ne simple lösung ala "Zieh die .jar un schau in der api was für teile davon gebrauchbar sind"?


----------



## faetzminator (1. Sep 2009)

wget ist keine lib für Java, aber das Tool macht genau was du willst: eine Website rekursiv bis zu gewissen definierbaren Grenzen lokal zu speichern.


----------



## Leroy42 (1. Sep 2009)

0din hat gesagt.:


> Von daher die frage, womit kann ich ... die ordnerstruktur hinter z.b. "http://www.java-forum.org/" nach files scannen?


Gar nicht!

Du kannst die Ordnerstruktur einer Homepage nicht herausbekommen.

Was verstehst du eigentlich unter der Ordnerstruktur eines URLs? :bahnhof:


----------



## 0din (1. Sep 2009)

Leroy42 hat gesagt.:


> Was verstehst du eigentlich unter der Ordnerstruktur eines URLs? :bahnhof:



Nuja, wenne ne URL hast die so aussieht:
"http://www.meineURL.de/bilder/quatsch/unsinn"
biste im prinzip in den ordnern bilder / quatsch / unsinn

zur Gnu Wget:
Danke aber es geht leider nich ums kopier sondern ums programmiern des dings...


----------



## faetzminator (2. Sep 2009)

0din hat gesagt.:


> Nuja, wenne ne URL hast die so aussieht:
> "http://www.meineURL.de/bilder/quatsch/unsinn"
> biste im prinzip in den ordnern bilder / quatsch / unsinn


Wenn du einen Apache laufen lässt und kein mod_rewrite verwendest, dann ist das korrekt.
1. Mit mod_rewrite könnte man konfigurieren, dass die aktuelle Page (/newreply.php?do=newreply&p=553080) auch per "/newreply/newreply/553080" erreichbar ist.
2. Wenn ich meine Apps auf einem Tomcat oder Websphere konfiguriere, habe ich nur irgendwelche Pfade, welche ich mit den jeweiligen Applikationen verknüpfe, praktisch liegen irgendwo class Dateien rum.
Auf deutsch: ich weiss was du willst, aber du musst sehen, dass dies in der heutigen Zeit (Web 2.0, etc.) nicht mehr so simpel ist.


0din hat gesagt.:


> zur Gnu Wget:
> Danke aber es geht leider nich ums kopier sondern ums programmiern des dings...



Ah so, verstanden


----------



## 0din (2. Sep 2009)

Ja isn nettes prog aber ich musses leider selber schreiben ;-)
Eig. müsst dat ja in hausaufgaben weils da anzusiedeln wäre aber da bekomm ich in diesem jahrzehnt keine antwort drauf ^^ 

nuja, zurück zum thema...
ich hab heut endlich mal n ansatz von infos bekommen... das ding darf(!) crawler gebrauchen, d.h. ich kann mit apache droids arbeiten (wenn ich da durchsteign würde) ^^ 
Wäre vllt jmd so gut mir zu erklären wie man das ding gebraucht?


----------



## Dissi (2. Sep 2009)

Hallo, genau die gleiche Aufgabe hatte ich im Info Studium 5. Semester. Habe dazu HTML Unit genutzt. Hab den Crawler aber selber gebaut.

MFG


----------



## 0din (2. Sep 2009)

Hm, 5tes is bei uns nen Praktikum... sitz nu im dritten un hab zu der aufgabe absolut keine infos bekommen. 
is ma wieder typisch, bekommen was aufgebrummt ohne das uns irgendwer sagt was man dazu gebrauchen könnte oder wie die sich das gedacht haben. 

Mal die Frage,
Ein crawler oder das droids von apache machen doch eigentlich nichts anderes als den links auf einer seite folgen?! Das müsste doch eigentlich schnell selbst zu machen sein.
Nur, wie "dekodiert" man bitte php links????:L


----------



## faetzminator (2. Sep 2009)

Wieso dekodieren? Einfach aufrufen und alle in Dateinamen nicht erlaubten Zeichen durch irgendwas ersetzen, damit du es abspeichern kannst.


----------



## 0din (2. Sep 2009)

Das aufrufen der Seiten wäre dann das HTML Unit un den crawler der den links bzw seitn folgt müsste man selbst eben basteln?!


----------



## javvb (2. Sep 2009)

Soweit ich weiß ja.


----------



## 0din (2. Sep 2009)

Super, nu kommt Licht ins dunkel ^^ 
nu muss ich mir morgen nur mal raussuchen wie man des html unit gebraucht un vorallem wo ichs her bekomm... 

ich stell dann ma die letzte frage für heut ^^ keine sorge war bestimmt net die letzte...
Wie kann ich anhand eines Links bzw einer URL raus bekommen obs auf dem gleichen server liegt? 
durch den aufbau der URLs kann ich mir da irgendwie keine lösung erdenken


----------



## 0din (8. Sep 2009)

Ich will as ganze hier mal nochmal aufmachen...

2 Probleme hab ich im mom..

1. Wie downloade ich bitte bilder?
2. Wie verändere ich die Links in einer html zeile?
2.1 string.replace() is schön un gut aber ich bekomm das ganze nich wirklich zu packen mit (is niederländisch also die variablen namen müssn so komisch sein)

```
public void copySite() throws IOException
	{
		System.out.println("De pagina wordt uitgelezen.");
		BufferedReader input = new BufferedReader(new InputStreamReader(url.openStream()));
		String inputLine;

		while ((inputLine = input.readLine()) != null)
		{
			inhoud.add(inputLine);
		}

		input.close();

		String holeFile = "";
		for (String st : inhoud)
		{
			holeFile += st;
		}

		match = patt.matcher(holeFile);
		while (match.find())
		{
			String w = match.group();
			if (!queue.contains(w))
			{
				queue.add(w);
				URL nieuw = new URL(w);
				nieuweLinks.add(pad);
			}
		}
	
		FileWriter fileWriter = new FileWriter(pad + fileNummer + "\\.html");
		for (String st : inhoud)
		{
			System.out.println(st);
			fileWriter.write(st + "\r\n");
		}
		fileWriter.close();
		System.out.println("De pagina is succesvol opgeslagen.");
		
		bs.addLinks(queue);
	}
```


----------



## ARadauer (8. Sep 2009)

> Nur, wie "dekodiert" man bitte php links?


gar nicht einfach folgen....



> sitz nu im dritten un hab zu der aufgabe absolut keine infos bekommen


tja hast gefragt?

also nochmal, was musst du genau machen? Einen kompletten offline reader schreiben? kann ich mir ehrlich nicht vorstellen.
Wie lautet die genau Aufgabenstellung, was muss das Ding genau können?


----------



## ARadauer (8. Sep 2009)

> 1. Wie downloade ich bitte bilder?


auf jeden fall nicht so wie die HTML Files, dann Bilder sind binär Dateien... bitte ließ dir mal das Kapitel durch
Galileo Computing :: Java ist auch eine Insel (8. Auflage) – 14 Dateien und Datenströme


----------



## 0din (8. Sep 2009)

Die genaue aufgabe:
2.1:
Baue ein programm ähnlich httrack, gebrauch dabei java, url und url connect

3.1
erweitere 2.1 um reguläre expressions
netterweise sagt mir der befragte dozent, das wir das am montag machn... un ich darfs morgen abend einliefern, aber die regexp habsch halbwechs im griff...

Ich würd euch die aufgaben ja kopiern aber ich glaub ihr könnt kein niederländisch... (studier in NL)

Soweit is das die aufgabenstellung,
was wir bis nu ham:
ein programm das eine website lädt, theoretisch seiten folgt (ungetestet)
unterscheidet obs nen bild oder ne andere htmlfile is un da auch weiter zieht.
das ganze ist nicht rekursiv, sollte man da ernsthaft drüber nachdenken?

un die probleme:
kleinstes problem sind die bilder (hab no net ins galileo geschaut, kann also schon gelöst sein)
und was mir n rätsel is, wie ersetz ich die alten urls im code durch meine neuen?
ich kann zwar die alten links mit den nem neuen überschreiben aber ich weiß ja leider no net wie die dateien heißen un wo se hin kommen


----------

