Parser HTML

Status
Nicht offen für weitere Antworten.
B

Bayer

Gast
Hallo zusammen,
Sitze schon den ganzen Tag darüber wie ich folgendes Problem löse:
ich versuche aus einer HTML Seite die Links herauszulesen. Den Text bekomm ich aber nicht den Link.
z.B. starten starten!
Ich möchte den String "http://irgendwas.de/blabla.html" auslesen und nicht starten starten! ....
:bahnhof: :bahnhof:
Kann mir jemand helfen?! Danke
 
G

Gelöschtes Mitglied 5909

Gast
wenn du es gescheid machst verwende einene XML parser, ansonsten verwende regex
 

dieta

Top Contributor
Wie wär's so:
Code:
String input = ...;
String[] ahs = input.split("<a href=\"");
String[] links = new String[ahs.length-1];
for(int i=1; i<ahs.length; i++)
{
    links[i-1] = (ahs[i].split("\"))[0];
}

Ist ungetestet, sollte aber funzen.
 

moormaster

Top Contributor
Und was ist dann mit Links, die <A HREF..., <A STYLE="..." HREF=..., ... aussehen? Mit <a href=... findet man doch nur einen Bruchteil aller Links.
 
B

Bayer

Gast
Danke für den Tipp,
ich verwende bereits einen HTML Parser der liefert mir eben nur starten starten! zurück und nicht den eigentlichen Link.
Gibt es da eine extra Funktion die mir den Link ausliest?
 

byte

Top Contributor
Wie wärs, wenn Du mal sagst, welchen HTML Parser du verwendest. Wir können ja nicht hellsehen. Standardmäßig gibts da afaik nix.
 
B

Bayer

Gast
http://htmlparser.sourceforge.net/ <-- hier habe ich den Parser gedownloaded und mit der Zeile bekomme ich den Text:

list = aparser.parse(new HasAttributeFilter("a"));

Wie funktioniert das mit dem Regex? Ist das arg kompliziert? Kenne mich damit nicht so aus.

Aber schon mal danke für die Tipps!!
 

Oskar

Aktives Mitglied
Probier mal den LinkClassFilter
anstelle des HasAttributeFilter.
Dem Filter gibst du dann mit, dass du nur Nodes vom Typ LinkTag mit.

Dann müsstest du über die Elemente in der NodeList, die dann alle LinkTags sind per myLinkTag.getLink() an den Inhalt im href rankommen.

Pseudocode (Schuss ins Blaue bitte nicht einfach übernehmen es geht nur um das Prinzip):
Code:
NodeFilter myFilter = new NodeClassFilter(LinkTag.class); //erstellt filter für LinkTags im Dokument
String myHref;
Parser myParser = new Parser(); //keine Ahnung wie der instanziert wird.
NodeList myList = new NodeList();
LinkTag myTag;

myList = myParser.parse(myFilter);

for(Iterator it = myList.iterator(); it.hasNext();){
     myTag = (LinkTag)it.next(); //cast des aktuellen NodeList Elements auf LinkTag
     myHref = myTag.getLink();
     System.out.println(myHref); 
}

So far. Hope that helps.
Cheers
 
B

Bayer

Gast
Vielen vielen Dank!!
Nur noch eine Frage, was genau macht
myList.iterator()
denn vom Datentype NodeList gibt es keine Funktion mit dem Namen iterator. Im Internet hab ich bis jetzt auch noch nicht gefundden, aber ich werde weitersuchen.
Danke schon mal!!
 
Status
Nicht offen für weitere Antworten.
Ähnliche Java Themen
  Titel Forum Antworten Datum
O HTML -> BBCode Parser? Java Basics - Anfänger-Themen 3
H Welcher Html-Parser? Java Basics - Anfänger-Themen 8
A html parser Java Basics - Anfänger-Themen 5
E HTML Parser Java Basics - Anfänger-Themen 8
Ras Unterschied zwischen parser xml and api xml Java Basics - Anfänger-Themen 7
B Parser dynamisieren Java Basics - Anfänger-Themen 7
W Einfachen, ein beliebiges Zeichen oft erkennenden Regex Parser selber schreiben - wie vorgehen? Java Basics - Anfänger-Themen 12
D Input/Output CSV Parser list unvollständig Java Basics - Anfänger-Themen 25
U DOM Parser, kleine Frage Java Basics - Anfänger-Themen 29
H java date-time parser Java Basics - Anfänger-Themen 1
X SAX Parser, wie weit ist der eigentlich? Java Basics - Anfänger-Themen 6
J kleiner Fehler im FAQ Parser für mathematische Formeln Java Basics - Anfänger-Themen 5
M htlm parser Java Basics - Anfänger-Themen 8
U Benötige ich einen Parser? Java Basics - Anfänger-Themen 2
T Parser mit switch "Weg" ausgeben? Java Basics - Anfänger-Themen 5
T XML Parser Java Basics - Anfänger-Themen 21
data89 Frage zum FAQ-'Parser für mathematische Formeln' Java Basics - Anfänger-Themen 4
T Wofür Parser?? Java Basics - Anfänger-Themen 39
A Gettext-Parser: Rad neu erfinden Java Basics - Anfänger-Themen 6
G Eigener Parser Java Basics - Anfänger-Themen 4
G guter Parser Java Basics - Anfänger-Themen 4
G Parser liefert StackOverflow error Java Basics - Anfänger-Themen 6
L URL Parser (String zusammensetzen) Java Basics - Anfänger-Themen 2
G If-Parser + Interpreter Java Basics - Anfänger-Themen 9
J Noch ein Parser Problem Java Basics - Anfänger-Themen 7
J Richtigen Parser wählen Java Basics - Anfänger-Themen 2
M.C.S. Parser: Flut von Variablen und if-Conditions eindämmen Java Basics - Anfänger-Themen 4
A Parser Java Basics - Anfänger-Themen 4
I Backend in Java und Ansicht von Dateien in statische HTML Seiten? Java Basics - Anfänger-Themen 15
W Javadoc HTML erzeugen mit allen dependency Java Basics - Anfänger-Themen 11
M html-seite drucken (gerendert) Java Basics - Anfänger-Themen 3
I HTML Code säubern Java Basics - Anfänger-Themen 4
B HTML File einlesen inkl. Bilder? Java Basics - Anfänger-Themen 2
B HTML Datei einlesen und HTML Code in String wandeln Java Basics - Anfänger-Themen 19
B HTML Code in XML speichern Java Basics - Anfänger-Themen 3
B HTML Code / Seite auslesen und JAVA Objekte erstellen Java Basics - Anfänger-Themen 12
K Erstes kleines Spieleprojekt - Java GUI in HTML einbinden Java Basics - Anfänger-Themen 3
B String nach HTML formatieren Java Basics - Anfänger-Themen 9
S HTML-Quelltext hinter HTTPS Java Basics - Anfänger-Themen 1
J Input/Output Input Buttons Html mit JSP Java Basics - Anfänger-Themen 3
E HTML in Java einbinden oder JavaScript? Java Basics - Anfänger-Themen 5
D Mit Java HTML bzw Javascript auslesen Java Basics - Anfänger-Themen 1
G Servlet - externe HTML (URL) auslesen Java Basics - Anfänger-Themen 1
S Text aus einer HTML Datei auslesen Java Basics - Anfänger-Themen 1
krgewb Input/Output Umlaute in generierter HTML-Datei Java Basics - Anfänger-Themen 7
N Status-Log - HTML Java Basics - Anfänger-Themen 12
C Methoden Welche JSoup Methoden Und Parameter für diese HTML Tags Java Basics - Anfänger-Themen 4
I Meta Tags vergleichen mit Html Vorgabe Java Basics - Anfänger-Themen 8
B HTML Code drucken Java Basics - Anfänger-Themen 4
D HTML Manipulation Navigation Java Basics - Anfänger-Themen 1
Z Html Element aus der Webseite auslesen Java Basics - Anfänger-Themen 1
D Erste Schritte HTML aus JEditorPane drucken Java Basics - Anfänger-Themen 5
M Fragen zum Auslesen von HTML Seiten Java Basics - Anfänger-Themen 5
M Java und Html Java Basics - Anfänger-Themen 4
I HTML Code in Bild (transparent) konvertieren Java Basics - Anfänger-Themen 0
I Watermark erstellen mit HTML in Bild? Java Basics - Anfänger-Themen 7
T Ausgabe in HTML :( Java Basics - Anfänger-Themen 19
F HTML Datei in .jar speichern und abändern Java Basics - Anfänger-Themen 2
S mit Java HTML Button drücken "lassen" Java Basics - Anfänger-Themen 8
M Erste Schritte Java Applet - HTML Seiten auslesen und in Access Datenbank schreiben? Java Basics - Anfänger-Themen 15
T HTML-Inputbox ansteuern Java Basics - Anfänger-Themen 4
I HTML Tabelle nur so lange erzeugen bis Höhe erreicht Java Basics - Anfänger-Themen 9
I HTML in String wandeln? Java Basics - Anfänger-Themen 1
D javacode durch Html ausfuehren Java Basics - Anfänger-Themen 13
W HTML Code, Umlaute werden nicht richtig dargestellt Java Basics - Anfänger-Themen 7
C Html in einem JEditorPane anzeigen Java Basics - Anfänger-Themen 2
I jar-Datei in HTML einbinden Java Basics - Anfänger-Themen 6
O Methode in andere Klasse verlegt, "auslesen" einer HTML Seite verschnellert - Problem. Java Basics - Anfänger-Themen 4
V Umlaute beim Parsen einer HTML Seite Java Basics - Anfänger-Themen 4
C Java Applet in html. Pong - old school Spiel Java Basics - Anfänger-Themen 10
J Methode um eine HTML-Datei zu öffnen Java Basics - Anfänger-Themen 10
H Schnell HTML-Tags finden Java Basics - Anfänger-Themen 5
G Probleme beim HTML auslesen Java Basics - Anfänger-Themen 6
J Html zugriff - POST Request/Response Java Basics - Anfänger-Themen 4
A HTML-Code auslesen und mit einem Wert in der property-Datei vergleichen Java Basics - Anfänger-Themen 2
Z Input/Output HTML-Seite einlesen Java Basics - Anfänger-Themen 4
H Interface JTextPane html formatiert kopieren Java Basics - Anfänger-Themen 2
L Applet soll Html-File öffnen Java Basics - Anfänger-Themen 2
L NetBeans Applet in html Java Basics - Anfänger-Themen 4
H Java Server/Client, HTML Seite anzeigen Java Basics - Anfänger-Themen 2
D Wie den HTML-Teil des Chat Tutorials aus dem FAQ-Bereich starten? Java Basics - Anfänger-Themen 5
C Link wie bei HTML Java Basics - Anfänger-Themen 7
F Methoden replaceAll (regex) HTML Java Basics - Anfänger-Themen 3
M Mit Java eine HTML-Seite speichern Java Basics - Anfänger-Themen 11
C Java in HTML einbinden Java Basics - Anfänger-Themen 2
N Website HTML mit JavaScript abrufen Java Basics - Anfänger-Themen 9
R JSON - Ausgabe als HTML mit gson Java Basics - Anfänger-Themen 6
R Suche Regex Ausdruck für HTML Java Basics - Anfänger-Themen 11
A JEditorPane + html -> java.io.IOException: invalid url Java Basics - Anfänger-Themen 4
S Lightbox Script vs. Taco HTML Script Java Basics - Anfänger-Themen 4
R Pattern bzw. Regex HTML-Code Java Basics - Anfänger-Themen 10
S String mit ASCII/HTML Zeichen darstellen Java Basics - Anfänger-Themen 10
S HTML Regularer Expression Java Basics - Anfänger-Themen 20
S regulärer Ausdruck HTML Java Basics - Anfänger-Themen 5
D Html Formular auswerten Java Basics - Anfänger-Themen 8
P Java Object das eine HTML Datei repräsentiert Java Basics - Anfänger-Themen 19
eLogic Einlesen von HTML-Source Java Basics - Anfänger-Themen 6
turmaline Ein regulärer Ausdruck für HTML-Sonderzeichen Java Basics - Anfänger-Themen 3
H html-Text mit Formatierung in String speichern Java Basics - Anfänger-Themen 4
S Java und HTML- Drop Down- Mehrfachauswahl Java Basics - Anfänger-Themen 3

Ähnliche Java Themen

Neue Themen


Oben