# HTML Seite Parsen, und bestimmten Text extrahieren



## Prinz (15. Aug 2006)

Ich habe folgendes problem:

Ich habe eine Webseite, und muss Textdaten rauslesen. Die Webseite ist leider ken xhtml, sondern nur normales HTML, wenn sie auch gleich strukturiert aussieht.

Bsp:

```
<div class="formrow">

						<div class="formcolumn1">
							<label class="highlightsmall">
								letztes buch							
							</label>
						</div>
						<div class="formcolumn2">
							<label class="midrange">
								
									[url="/web/search/detailSearch.do?method=search&reset=true&searchLastBook=Max+Geht+Zur+Schule..."]Max Geht Zur Schule...[/url]
								
							</label>						
						</div>

					</div>
									
					
					
					<div class="formrow">
						<div class="formcolumn1">
							<label class="highlightsmall">
								letzter kino-film							
							</label>
						</div>
						<div class="formcolumn2">
							<label class="midrange">

								
									[url="/web/search/detailSearch.do?method=search&reset=true&searchLastFilm=Bibi+Blocksberg..."]Bibi Blocksberg...[/url]
								
							</label>						
						</div>
					</div>
```



Was ich bisher geschafft habe ist, den Text zu extrahieren mit dem Jericho HTML Parser.
Das ist jetzt aber nur eine String mit allen wörtern in den text: 


```
anbieten freundschaft anbieten nachricht senden nachricht senden sperren sperren petzen! petzen! über wen kenne ich holy giorty AlinaH Flo79ms tschitschi holy daten daten tagebuch tagebuch gästebuch gästebuch freunde freunde fotos fotos mitglied seit 24.08.2005 letzte anmeldung am 15.08.2006 ich bin frau meine homebase wien alter/sternzeichen 31/krebs familienstand in einer beziehung da komme ich her baden - -Austria dialekt althochdt bis hin z.d.niederungen, ok...none ;o) so wohne ich mit hund und katz, und meinem liebsten damit verdiene ich mein geld lassen sie uns durch wir sind arzt ex-firmen uiuiui ... YITS ex-schulen also @first marienkindergarden, dann pfarrschule, dann bionthek, und zu guter letzt no die knödl mitglied bei gesangsverein'badewanne' und fotoklub'holy-teffer' meine hot-spots im garten vor dem griller, und bei den nachbarn mein haustier wer brav bei der sache ist, weiß das schon meine fahrzeuge ich habe 2!!! fahrräder ... ;o) ned schlecht herr specht ... oder?!? meine sportarten schwimmen tauchen windsurfen skifahren snowboarden jogging kampfsport meine hobbys kochen garten spazieren gehen basteln sammeln spielen malen töpfern fotografieren tiere lieblingslied time of your life - green day letztes buch Schiffbruch mit Tiger letzter kino-film Madagaskar lieblingsserie(n) im tv scrups letzter urlaub gargano - vieste zum surfen wen willst du schon immer mal treffen paul newman ... nur eine nacht ... mal ausgiebigst alles besprechen ;o) mein tipp für euch turn on, tune in, cop out ich bin fan von
```



Ich brauche konkret die String zu Leiblingslied, Letzter Kinofilm......

der Rest ist eigentlich unrelevant. 

Wie würdet ihr da vorgehen?


----------



## KSG9|sebastian (15. Aug 2006)

Ich würd den Typen verprügeln der von mir verlangt ne HTML Seite nach irgendwelchem beliebig langen, beliebig aussehenden Text zu parsen.
Oder ich würd den Typen anspringen der keine sinnvolle Schnittstelle sondern ne HTML-Datei bereitstellt


----------



## Prinz (15. Aug 2006)

anders gehts manchmal nicht ^^


----------



## Prinz (15. Aug 2006)

habs jetzt mit der klasse string gemacht. 

so ein rumgeficke ^^


----------

