# HTML Tabelle auslesen



## Guest (21. Mrz 2007)

HI

bin mehr oder weniger n Java Anfänger!
möchte nun eine Tabelle aus einer HTML seite auslesen.

<table>
    <tr>
        <td>*Englisch*<td>
    </tr>
    <tr>
        <td><a href='hier steht n link>Titel einer datei</a><td>
    </tr>
    <tr>
        <td><a href='hier steht noch n link>Titel einer datei</a><td>
    </tr>
</table>

in etwa so nur 1000 mal größer sieht die tabelle aus!

Nun bräcuhte ich daraus immer jeweils den Titel der DAtei sowie den dazugehörigen Link und auch die Sprache.
gibt es eine Möglichkeit, das ich nich die Datei einlesen und dann jede zeile abfragen muss oder so.
sondern direkt eine HTML Klasse wo das alles ein wenig einfacher von statten geht?!

letztendlich sollen diese Daten in eine Datenbank.

Wäre super wen ihr mir helfen könntet!

Vielen dank

Julian


----------



## Gast (21. Mrz 2007)

|||||| EDIT ||||
HI

bin mehr oder weniger n Java Anfänger!
möchte nun eine Tabelle aus einer HTML seite auslesen.

```
<table>
    <tr>
        <td>[b]Englisch[/b]<td>
    </tr>
    <tr>
        <td><a href='hier steht n link>Titel einer datei</a><td>
    </tr>
    <tr>
        <td><a href='hier steht noch n link>Titel einer datei</a><td>
    </tr>
</table>
```

in etwa so nur 1000 mal größer sieht die tabelle aus!

Nun bräcuhte ich daraus immer jeweils den Titel der DAtei sowie den dazugehörigen Link und auch die Sprache.
gibt es eine Möglichkeit, das ich nich die Datei einlesen und dann jede zeile abfragen muss oder so.
sondern direkt eine HTML Klasse wo das alles ein wenig einfacher von statten geht?!

letztendlich sollen diese Daten in eine Datenbank.

Wäre super wen ihr mir helfen könntet!

Vielen dank

Julian


----------



## MASTERmind (21. Mrz 2007)

ein weg wäre http unit....in verbindung mit regulären ausdrücken<-(*würg*)


----------



## AlArenal (21. Mrz 2007)

Also in Perl gehts recht einfach über das passende CPAN Modul. In Java.. Hm.. da musst du mal ne Runde googlen, ob es da irgendwo was fertiges gibt. Mir ist noch nichts untergekommen.


----------



## Der Müde Joe (21. Mrz 2007)

vielleicht hilft der CyberNeko ein wenig...
Jedenfalls um das Html wohlzuformen


----------



## Guest (22. Mrz 2007)

hey

danke schonmal für die schnellen antworten! Allerdings wie gesagt bin ich eher ein Anfänger! 
Was is denn die HTML Unit?

gegoogelt hab ich schon ohne nach HTML auslesen etc.

was mir nun jmd auch näher getragen hat, das mit nem XML Parser auszulesen (SAX), nur hab ich davon allerdings auch nich den plan und versteh auch die Dokus im Metz nicht richtig!

vllt könnt ihr mir ja helfen!

danke

julian


----------



## AlArenal (22. Mrz 2007)

Wenn du Infos zu HTML Unit suchst macht es Sinn die Begriffe in Google einzugeben. Dann landet man hier: http://htmlunit.sourceforge.net/


----------



## Der Müde Joe (22. Mrz 2007)

Mit SAX oder JDOM oder DOM ist das sicher machbar
siehe zb
http://www.torsten-horn.de/techdocs/java-xml.htm

denke JDOM ist recht einfach am anfang (SAX schon etwas schwerer)
wenn sie wohlgeformt sind ....(mit CyberNeko )

es ist eine reine Fleissarbeite denke ich mal.
über denn Sinn eine HTML reinzulesen...no comment..


----------



## Guest (22. Mrz 2007)

Der Müde Joe hat gesagt.:
			
		

> Mit SAX oder JDOM oder DOM ist das sicher machbar
> siehe zb
> http://www.torsten-horn.de/techdocs/java-xml.htm




hab ich schon gemacht, bzw mir angeschaut. Ich werd nur einfach nich schlau daraus. aber ok!
wie gesagt vllt fleiß arbeit!


			
				Der Müde Joe hat gesagt.:
			
		

> denke JDOM ist recht einfach am anfang (SAX schon etwas schwerer)
> wenn sie wohlgeformt sind ....(mit CyberNeko )





			
				Der Müde Joe hat gesagt.:
			
		

> über denn Sinn eine HTML reinzulesen...no comment..



na ja sagen wir mal so!... es geht nicht anders weil die daten mir nur in dieser Form vorliegen!
andernfalls müsste ich zig ordner abfragen, keiner gleich auch nur im entferntesten dem anderen in der Struktur!

vllt sagt dir ja die MS Tech Net subcription was wo X-1000 dateien (programme , dokumentationen, etc) vorhanden sind.
die sollen nun in eine art wissensdatenbank!

gruß Julian


----------

