# Fraen zur Programmierung einer Volltextsuche



## DP (11. Feb 2004)

hi!

ich soll hier dateien (jeden typs) nach zeichenketten durchsuchen. 

wie würdet ihr das problem angehen?!

danke


----------



## bygones (11. Feb 2004)

Datei öffnen, einlesen, einen regulären Ausdruck drüberjagen (oder einfaches indexOf)....

Was natürlich bei binären Dateien lustig werden kann  :wink:


----------



## DP (11. Feb 2004)

jo hi.

bin nun soweit fertig (dateien suchen, öffnen, durchsuchen).

soweit so gut.

wie durchsuche ich denn am besten pdf-dateien?!

danke


----------



## tomkruse (14. Feb 2004)

Hi!

PDF-Dateien kannst Du nicht so ohne weiteres durchsuchen, sie müssen zuerst in Text umgewandelt bzw. der enthaltene Text extrahiert werden. Dazu gibt es eine recht gute OpenSource-Library. Schau Dir mal pdfBox an. Ich habe meine Volltextsuche damit gemacht und das klappt hervorragend. Wenn Du übrigens Office-Dokumente (Word, Excel, Powerpoint) ebenfalls durchsuchen möchtest, dann kannst Du das mit Hilfe von OpenOffice machen. Ist zwar etwas kompliziert und man sucht sich einen Wolf, wenn man was bestimmtes machen will, aber es funktioniert.

Cu - Tom.


----------



## DP (18. Feb 2004)

danke schön. werde das ausprobieren.

office-dateien haben mir hier keine schwierigkeiten gemacht, habe sie wie eine textdatei durchsucht, da wird der auch fündig..

grüße


----------



## Luy (13. Nov 2009)

Moinsen 
Die Lib gibbet nu unter folgender Adresse: pdfbox

LG Luy


----------



## Der Müde Joe (13. Nov 2009)

leichenschänder... --> 18.02.2004, 14:53


----------



## Luy (13. Nov 2009)

Verstehe gerade nicht was die Antwort soll... :bahnhof:
War doch nur nett gemeint! ???:L
Is doch sch... egal wie alt n Post ist, oder?


----------



## bygones (13. Nov 2009)

Luy hat gesagt.:


> Verstehe gerade nicht was die Antwort soll... :bahnhof:
> War doch nur nett gemeint! ???:L
> Is doch sch... egal wie alt n Post ist, oder?



du meinst ehrlich dass eine Frage die 5 (!!!) Jahre alt ist heute (!!) noch Relevanz hat ????


lol und ich dachte schon DP waere wieder da ;-)


----------

