# doc-Datei einlesen und bearbeiten



## rene_kochan (29. Nov 2008)

Hallo Leute!
Ich bin gerade dabei, eine doc-Datei (Open Office bzw. Ms Word) einzulesen, um diese anschließend analysieren zu können. Doch leider liest er ja die doc-Datei nur binär ein, was mir grad nichts bringt. Ich brauche also eine Methode, die mir eine Word-Datei zeilenweise einliest und erstmal in ein String-Array speichert, damit ich das dann weiterbearbeiten kann.

```
public static void main(String[] args)
	  {
	    String s;
	    BufferedReader br = null;
	    List<String> al_daten = new ArrayList<String>();
	    int i=0;
	    try
	    {
	      br = new BufferedReader(new FileReader("c:\\Temp\\Testdatei.txt"));
	      try
	      {
	        while ((s = br.readLine()) != null)
	        { 
	        	al_daten.add(s);
	        	i++;
	        }
	        for(String s1:al_daten)
	        {
	        	System.out.println(s1);
	        }
	      }
	      finally
	      {
	        if (br != null)
	          br.close();
	      }
	    }
	    catch (IOException io)
	    {
	      System.out.println(io.getMessage());
	    }
	  }
```
Das ganze geht ja bei einer Textdatei, doch wie mache ich das bei doc-Dateien von OpenOffice bzw. Word? 
Kann mir da jemand weiterhelfen? 
Danke im Voraus für Eure Antworten!
Tschau!


----------



## Zed (29. Nov 2008)

So einfach wird das nicht
Eine *.doc ist nun mal binär da diese Datei mehr Informationen enthält als nur den Text den du in Word einfügen tust. Die Datei enthält Informationen über Schriftarten, Ersteller...etc.

Auf die schnelle hab ich mal das hier gefunden
http://danadler.com/jacob/
http://www.land-of-kain.de/docs/jacob/


----------



## Wildcard (30. Nov 2008)

Für doc gibt es nur einige mehr schlecht als Recht funktionierende Bibliotheken, weil das Format nicht offengelegt wurde.
Für fortgeschrittenere Aufgaben solltest du OpenOffice mit Java steuern, da kein anderes Programm so gut mit dem proprietären MS Format umgehen kann.
OpenDocument wird einfacher, da gibt es zum Beispiel die ODF Toolkit Bibliothek von OpenOffice.


----------

