Guten Morgen,
ich brauche dringend eure Hilfe. Entschuldigt die Eile!
Meine Aufgabe ist es, einen Annotator zu schreiben, der auf XML Dokumente zugreift und Sätze zunächst in Tokens zerlegt. Dieser Annotator führt auf einem Lexikon basierend eine Lemmatsierung durch und eine Wortartenerkennung.
Beispiel Eingabe:
<s>I would play football.</s>
Ausgabe:
<s>
<w lemma="i" type="N">I</w>
<c> </c>
<w lemma="will" type="V">would</w>
<c> </c>
<w lemma="play" type="V">play</w>
<c> </c>
<w lemma="football" type="N">football</w>
<c type="$.">.</c>
<c> </c>
</s>
Kurze Erklärung zu den Tags:
N = Nomen
V = Verb
Satzende-Zeichen = $.
Ich arbeite mit Eclipse. Habt ihr irgendwelche hilfreichen Tips?
StringTokenizer ist mir ein Begriff, aber wie soll ich Tokenisierung, Lemmatisierung und POS-Tagging miteinander kombinieren?
ich brauche dringend eure Hilfe. Entschuldigt die Eile!
Meine Aufgabe ist es, einen Annotator zu schreiben, der auf XML Dokumente zugreift und Sätze zunächst in Tokens zerlegt. Dieser Annotator führt auf einem Lexikon basierend eine Lemmatsierung durch und eine Wortartenerkennung.
Beispiel Eingabe:
<s>I would play football.</s>
Ausgabe:
<s>
<w lemma="i" type="N">I</w>
<c> </c>
<w lemma="will" type="V">would</w>
<c> </c>
<w lemma="play" type="V">play</w>
<c> </c>
<w lemma="football" type="N">football</w>
<c type="$.">.</c>
<c> </c>
</s>
Kurze Erklärung zu den Tags:
N = Nomen
V = Verb
Satzende-Zeichen = $.
Ich arbeite mit Eclipse. Habt ihr irgendwelche hilfreichen Tips?
StringTokenizer ist mir ein Begriff, aber wie soll ich Tokenisierung, Lemmatisierung und POS-Tagging miteinander kombinieren?