Guten Abend,
ich habe ein kleines Problem.
Ich habe einen Annotator implementiert, der einen Satz tokenisieren soll und anschließend eine Lemmatisierung und POS-Tagging durchführt.
Konkret ausgedrückt geht es darum, dass ein Satz in seine Einzelteile zerlegt wird (tokenizer).
Dann folgt eine Lemmatisierung, was bedeutet, dass einzelne Wörter auf ihre jeweilige grundform zurückgeführt werden und dann die genaue Wortart bestimmt wird.
Beispiel Eingabe:
<s>Did Robin kill him at 9 o'clock?</s>
Die Ausgabe soll lauten:
Folgende Liste soll verdeutlichen, was die Buchstaben bedeuten:
Nomen = N
Verb = V
Adjektiv = ADJ
Zahl = NUM
Adverb = ADV
unb. Wort = UNK
Sonstiges = $,
Satzende = $.
Schaut man sich die Ausgabe allerdings genauer an, fällt auf, dass z.B "kill" als N ausgezeichnet wird, also ein Nomen ist. das ist aber falsch wie wir wissen. Die Annotator arbeitet auf Grundlage eines englischen Lexikons, die vom Annotator durchlaufen wird. Wir haben eine ganze Liste von Wörtern, die sowohl Nomen als auch Verb sein können.
Meine Frage:
Wie teile ich dem Annotator mit, dass er das richtige Wort mit der richtigen Wortart heraussucht?
ich habe ein kleines Problem.
Ich habe einen Annotator implementiert, der einen Satz tokenisieren soll und anschließend eine Lemmatisierung und POS-Tagging durchführt.
Konkret ausgedrückt geht es darum, dass ein Satz in seine Einzelteile zerlegt wird (tokenizer).
Dann folgt eine Lemmatisierung, was bedeutet, dass einzelne Wörter auf ihre jeweilige grundform zurückgeführt werden und dann die genaue Wortart bestimmt wird.
Beispiel Eingabe:
<s>Did Robin kill him at 9 o'clock?</s>
Die Ausgabe soll lauten:
Java:
<?xml version="1.0" encoding="UTF-8"?>
<s>
<w lemma="do" type="V">Did</w>
<c type="UNK" />
<w lemma="robin" type="N">Robin</w>
<c type="UNK" />
<w lemma="kill" type="N">kill</w>
<c type="UNK" />
<c type="UNK">him</c>
<c type="UNK" />
<w lemma="at" type="N">at</w>
<c type="UNK" />
<c type="NUM">9</c>
<c type="UNK" />
<w lemma="o" type="N">o</w>
<c type="UNK" />
<w lemma="clock" type="N">clock</w>
<c type="$.">?</c>
<c type="UNK" />
</s>
Folgende Liste soll verdeutlichen, was die Buchstaben bedeuten:
Nomen = N
Verb = V
Adjektiv = ADJ
Zahl = NUM
Adverb = ADV
unb. Wort = UNK
Sonstiges = $,
Satzende = $.
Schaut man sich die Ausgabe allerdings genauer an, fällt auf, dass z.B "kill" als N ausgezeichnet wird, also ein Nomen ist. das ist aber falsch wie wir wissen. Die Annotator arbeitet auf Grundlage eines englischen Lexikons, die vom Annotator durchlaufen wird. Wir haben eine ganze Liste von Wörtern, die sowohl Nomen als auch Verb sein können.
Meine Frage:
Wie teile ich dem Annotator mit, dass er das richtige Wort mit der richtigen Wortart heraussucht?