# Info eines Webseites kopieren



## Gast (19. Apr 2007)

Guten Tag,

also ich wollte wissen, ob es möglich ist die Information die in einer Webseite steckt kopieren und irgendwo anders es einfügen?

Danke


----------



## Wildcard (19. Apr 2007)

ja


----------



## Guest (19. Apr 2007)

Wildcard hat gesagt.:
			
		

> ja



Könntest du bitte mir ein bisschen mehr Information geben über wie ich das machen könnte. Ich finde ähnliche Sachen, aber nicht was ich brauche.
Ich will teil des Webseites kopieren und z.B. im ein .txt datei speichern.

Ich bedanke mich


----------



## Wildcard (19. Apr 2007)

Strg+A
Strg+C
Strg+P


----------



## Guest (20. Apr 2007)

Wildcard hat gesagt.:
			
		

> Strg+A
> Strg+C
> Strg+P



habe ich mich falsch ausgedrückt?
Es soll durch eine Java Quellcode erreicht werden. 
Nach dem aufrufen eines URLs
z.B.
URL url = new URL("www.google.com")

soll dann die information was an dieser Seite steht, gespeichert werden, also:
Google Web Images Video ......
was im textbox steht...
Advance Search, Preferences, Language Tools, etc.

Danke


----------



## Wildcard (20. Apr 2007)

Anonymous hat gesagt.:
			
		

> habe ich mich falsch ausgedrückt?


Kann man sagen.

Wenn du mit einer URLConnection www.google.com öffnest bekommst du über einen InputStream den Quell-Code der Seite.
Ist es das was du willst?


----------



## Guest (21. Apr 2007)

Wildcard hat gesagt.:
			
		

> bekommst du über einen InputStream den Quell-Code der Seite.
> Ist es das was du willst?



neh... dass hab ich grad bekommen mit


```
InputStream in = url.openStream();
...
Scanner s = new Scanner( in );
...
System.out.println( s.useDelimiter( "" ).next() );
```

also ich will nicht dass das Quell-code der Seite angezeigt wird... wie kann man die Information "filtern"... und dann im ein .txt Datei speichern...


----------



## AlArenal (21. Apr 2007)

Welche "Information"? Die ganze Seite ÍST Information.


----------



## Guest (21. Apr 2007)

AlArenal hat gesagt.:
			
		

> Welche "Information"? Die ganze Seite ÍST Information.



z.B. ich will alles was im diesen Thread steht, copieren und in ein .txt Datei speichern... durch Java!


----------



## AlArenal (21. Apr 2007)

Und warum sagst du dann, dass du den Quelltext der Seite nicht willst?


----------



## Guest (21. Apr 2007)

AlArenal hat gesagt.:
			
		

> Und warum sagst du dann, dass du den Quelltext der Seite nicht willst?



weil es besteht aus alle die HTML programmierung die benutzt wurde und das brauche ich nicht. Deswegen habe ich auch gefragt, ob man die Inhalt des Webseites von diese HTML programmierung "filtern" konnte.


----------



## HoaX (21. Apr 2007)

nimm den quellcode und schmeiß alles zwischen den < und > weg?


----------



## masta // thomas (21. Apr 2007)

Kannst du mir einen Gefallen tun, und versuchen, sich vernünftig zu artikulieren? Man versteht nur Bahnhof.
Was genau ist dein Vorhaben? Nenn doch mal ein konkretes Beispiel, evtl. mit Vorgabe der Eingabe und deine Wunsch-Ausgabe.

*edited*


----------



## Guest (21. Apr 2007)

als Beispiel:



> <tr><td colspan="2"><span class="postbody"></span><table width="90%" cellspacing="1" cellpadding="3" border="0" align="center"><tr>	  <td><span class="genmed">*AlArenal hat folgendes geschrieben::*</span></td>	</tr>	<tr>	  <td class="quote">Und warum sagst du dann, dass du den Quelltext der Seite nicht willst?</td>	</tr></table><span class="postbody">
> 
> 
> 
> ...



Dies hier ist Teil des Quellcode dieser Seite. Ich will nur, dass das was im schwarz geschrieben ist, in ein .txt Datei kopiert und gespeichert wird.


----------



## Jango (21. Apr 2007)

@ masta // thomas: Schon mal dran gedacht, dass Gast es nicht besser kann, aus welchen Gründen auch immer?




			
				masta // thomas hat gesagt.:
			
		

> Kannst du mir einen Gefallen tun, und sich versuchen, vernünftig zu artikulieren?



...klingt auch nicht gerade hochschulreif.  :roll:


----------



## masta // thomas (21. Apr 2007)

Im Eifer des Gefechts vertippt und edit Button nicht gedrückt...
Ich glaube schon, dass er es kann, wenn er sich einfach ein bisschen Mühe beim Schreiben gibt.


Zu deiner Frage, Gast:
In deinem Beispiel-Text möchtest du also den Text eines jeden Posts in eine Datei speichern. In diesem Fall bzw. gerade in diesem Forum hier wird ein Post von einem <span> eingeschlossen, und zwar von <span class="postbody">. Da ein <span> auch geschlossen werden muss, kannst du die beiden Elemente als Grenzen sehen, die du dafür benutzen kannst, deinen Text zu filtern.
Zunächst mal musst du die Seite in ein String (o.ä.) einlesen. Um die gewünschten Passagen zu filtern, kannst du dann entweder reguläre Ausdrücke nutzen (schau mal in die FAQ oder such mal hier im Forum, es gibt jede Menge Beispiele dazu), oder du läufst den Text Zeile für Zeile / Zeichen für Zeichen durch. Dafür könntest du eine for-Schleife benutzen die z.B. bei Zeile.indexOf("<span class=\"postbody\">"); mit der Iteration anfängt und bis zum x-ten Vorkommen von </span> weiterläuft.


----------



## MartinRuopp (26. Apr 2007)

Im Swing  (packages javax.swing.text, javax.swing.text.rtf, javax.swing.text.html)
gibt es Klassen, um in verschiedenen Markup-Formaten formatierte Texte anzuzeigen.

Sie benutzen eine Document-Abstraction, die aber immer auch Klartext "kann".
Damit kann man den Markup entfernen.

Ich hab das mal für RTF gemacht und das sah so aus:


```
String rtf=... // RTF-Text einlesen
EditorKit ekit=new RTFEditorKit();
Reader in=new StringReader(rtf);
Document doc=new DefaultStyledDocument();
ekit.read(in,doc,0);
in.close();
String plaintext=doc.getText(0,doc.getLength());
```

Mit einem HTMLEditorKit statt einem RTFEditorKit kann man eventuell auch die HTML-Tags "wegbefördern".

Gruß,

Martin


http://www.mruopp.de


----------

