# HTML2TXT ganz einfach



## noisebreath (27. Jul 2009)

Hi hat mir jemand n jar oder nen sourcecode welches ein html document nimmt und zu einem txt file oder text String umwandelt. Formatierung wie Absätze oder sowas sind völlig egal nur der plain text sollte vorhanden sein.

achja nochwas: ich hab schon erfolglos gegooglet.
der YOSHIKODER CONVERTER könnte wohl zb sowas machen aber ich krieg keine jar davon her. 

am htmlparser HTML Parser - HTML Parser probier ich grad rum.

lg
noise


----------



## bygones (27. Jul 2009)

noisebreath hat gesagt.:


> Hi hat mir jemand n jar oder nen sourcecode welches ein html document nimmt und zu einem txt file oder text String umwandelt.


willst du einen parser oder reicht ein einfach einlesen ?

bei erster loesung - viel spass... html kann gelinde gesagt bescheuert sein ;-)


----------



## noisebreath (27. Jul 2009)

ich will den text einfach einlesen aber ohne die tags halt.

mit dem html parser von oben komm ich nicht ganz klar. finde irgendwie die class nicht, die string extraction machen soll. 
HTML Parser - HTML Parser Sample Programs

Auf der Seite heisst es es gäbe einen StringExtractor, den mein ich bräuchte ich wohl aber ich find ihn nicht im srcCode ^^

in den JavaDocs ist davon auch nichts zu sehen *g

HTML Parser 2.0


----------



## musiKk (27. Jul 2009)

Der stringextractor ist auch nur ein Wrapper um die etwas unglücklich benannte Klasse StringBean, damit daraus ein Kommandozeilentool wird. Schau Dir das mal an.


----------



## noisebreath (27. Jul 2009)

vielen lieben Dank !


----------



## DocRandom (29. Jul 2009)

Hi!

Ich verwende für dieses Problem schon seit geraumer Zeit HttpUnit.
Hier die Klasse:

```
import java.io.IOException;
import java.io.StringReader;

import javax.swing.text.BadLocationException;
import javax.swing.text.html.HTMLDocument;
import javax.swing.text.html.HTMLEditorKit;

import com.meterware.httpunit.WebResponse;

public class Html2Text {

	private HTMLEditorKit editor;
	private HTMLDocument document;
	
	public Html2Text() {
		editor = new HTMLEditorKit();
		document = (HTMLDocument)editor.createDefaultDocument();
		document.putProperty("IgnoreCharsetDirective", new Boolean(true)); 
	}
	
	public String getPlainText(WebResponse response) {
		String plaintext = "";
		
		try {
			editor.read(new StringReader(response.getText()),document, 0);
			plaintext = document.getText(0, document.getLength());
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (BadLocationException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		
		return plaintext;
	}
}
```

lg


----------



## kama (29. Jul 2009)

Hallo,

schau Dir mal das Tika Framework an...

MfG
Karl Heinz Marbaise


----------

