Ich würde mich gerne mal mit diesem Thema beschäftigen, aber finde dazu nicht viel sinnvolles. Das wird anscheinend hauptsächlich an Unis behandelt und es gibt wenig für normale Menschen verfügbares Material dazu. Oder ich bin zu blöd zum Suchen
Ich bin über viele Begriffe, wie Suffixtree, Trie, Suffixarray gestolpert, bin aber nicht sicher, ob mir die helfen.
Meine naiver Ansatz für eine Indexierung wäre es einfach Texte Wort für Wort durchzugehen und in einer Datenbank zu erfassen. Sogenannte Stoppwörter (also unwichtige Worte bleiben davon ausgenommen). Dazu merkt man sich noch in welchem Dokument das Wort enthalten gewesen ist und an welcher Stelle im Dokument (Zeile? Wortindex? Was ganz anderes?). Fertig.
Wäre das wirklich so einfach?
Hat da jemand Informationen dazu? Oder sich schon mal mit beschäftigt?
Danke,
temi
Ich bin über viele Begriffe, wie Suffixtree, Trie, Suffixarray gestolpert, bin aber nicht sicher, ob mir die helfen.
Meine naiver Ansatz für eine Indexierung wäre es einfach Texte Wort für Wort durchzugehen und in einer Datenbank zu erfassen. Sogenannte Stoppwörter (also unwichtige Worte bleiben davon ausgenommen). Dazu merkt man sich noch in welchem Dokument das Wort enthalten gewesen ist und an welcher Stelle im Dokument (Zeile? Wortindex? Was ganz anderes?). Fertig.
Wäre das wirklich so einfach?
Hat da jemand Informationen dazu? Oder sich schon mal mit beschäftigt?
Danke,
temi