Lemmatisierung & POS Tagging

Joew0815

Bekanntes Mitglied
Guten Morgen,

ich brauche dringend eure Hilfe. Entschuldigt die Eile!

Meine Aufgabe ist es, einen Annotator zu schreiben, der auf XML Dokumente zugreift und Sätze zunächst in Tokens zerlegt. Dieser Annotator führt auf einem Lexikon basierend eine Lemmatsierung durch und eine Wortartenerkennung.

Beispiel Eingabe:

<s>I would play football.</s>

Ausgabe:

<s>
<w lemma="i" type="N">I</w>
<c> </c>
<w lemma="will" type="V">would</w>
<c> </c>
<w lemma="play" type="V">play</w>
<c> </c>
<w lemma="football" type="N">football</w>
<c type="$.">.</c>
<c> </c>
</s>

Kurze Erklärung zu den Tags:

N = Nomen
V = Verb
Satzende-Zeichen = $.

Ich arbeite mit Eclipse. Habt ihr irgendwelche hilfreichen Tips?

StringTokenizer ist mir ein Begriff, aber wie soll ich Tokenisierung, Lemmatisierung und POS-Tagging miteinander kombinieren?
 

timbeau

Gesperrter Benutzer
Worum geht es genau? Hast du bereits ein Lexikon etc und musst nur den XML Part verarbeiten? Oder hast du garnichts?
 

Joew0815

Bekanntes Mitglied
Ein Lexikon habe ich bereits.
Es geht darum, wie du richtig sagtest, ein XML Dokument zu verarbeiten.
Tokenisierung, Lemmatisierung und POS-Tagging wurden schon anderweitig implementiert.
Also in einem etwas anderen Aufgabenkontext, aber ich weiß nicht so recht, wie ich das alles zu einem Ganzen kombiniere und in einen Annotator packe.

Java:
package org.annochains.annotators;

import org.jdom2.Document;

public class TagAnnotator implements Annotator {

	@Override
	public Document process(Document pInput) throws AnnotatorException {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String getName() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String getDescription() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String[] getParameterKeys() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String getParameter(String pKey) {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public void setParameter(String pKey, String pValue) {
		// TODO Auto-generated method stub
		
	}

}

So weit wird alles automatisch von Java erkannt und vorbereitet. Die Implementierung erfolgt dann in
Java:
public class TagAnnotator implements Annotator {

	@Override
	public Document process(Document pInput) throws AnnotatorException {
		// Hier!!!
		return null;
	}

Hoffe auf Hilfe.
 

timbeau

Gesperrter Benutzer
Wenn du es so machst, müsste dir doch Document die nötigen Methoden liefern.

Ansonsten kannst du auch JAXB nutzen, machst aus dem XML-Code Java-Beans und arbeitest mit den Java-Objekten
 

Oben