Lemmatisierung & POS Tagging

Joew0815 · 28. Jan 2013

Guten Morgen,

ich brauche dringend eure Hilfe. Entschuldigt die Eile!

Meine Aufgabe ist es, einen Annotator zu schreiben, der auf XML Dokumente zugreift und Sätze zunächst in Tokens zerlegt. Dieser Annotator führt auf einem Lexikon basierend eine Lemmatsierung durch und eine Wortartenerkennung.

Beispiel Eingabe:

<s>I would play football.</s>

Ausgabe:

<s>
<w lemma="i" type="N">I</w>
<c> </c>
<w lemma="will" type="V">would</w>
<c> </c>
<w lemma="play" type="V">play</w>
<c> </c>
<w lemma="football" type="N">football</w>
<c type="$.">.</c>
<c> </c>
</s>

Kurze Erklärung zu den Tags:

N = Nomen
V = Verb
Satzende-Zeichen = $.

Ich arbeite mit Eclipse. Habt ihr irgendwelche hilfreichen Tips?

StringTokenizer ist mir ein Begriff, aber wie soll ich Tokenisierung, Lemmatisierung und POS-Tagging miteinander kombinieren?

Joew0815 · 28. Jan 2013

Niemand da, der dazu ratschläge geben könnte?

timbeau · 28. Jan 2013

Worum geht es genau? Hast du bereits ein Lexikon etc und musst nur den XML Part verarbeiten? Oder hast du garnichts?

Joew0815 · 28. Jan 2013

Ein Lexikon habe ich bereits.
Es geht darum, wie du richtig sagtest, ein XML Dokument zu verarbeiten.
Tokenisierung, Lemmatisierung und POS-Tagging wurden schon anderweitig implementiert.
Also in einem etwas anderen Aufgabenkontext, aber ich weiß nicht so recht, wie ich das alles zu einem Ganzen kombiniere und in einen Annotator packe.

Java:

package org.annochains.annotators;

import org.jdom2.Document;

public class TagAnnotator implements Annotator {

	@Override
	public Document process(Document pInput) throws AnnotatorException {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String getName() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String getDescription() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String[] getParameterKeys() {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public String getParameter(String pKey) {
		// TODO Auto-generated method stub
		return null;
	}

	@Override
	public void setParameter(String pKey, String pValue) {
		// TODO Auto-generated method stub
		
	}

}

So weit wird alles automatisch von Java erkannt und vorbereitet. Die Implementierung erfolgt dann in

Java:

public class TagAnnotator implements Annotator {

	@Override
	public Document process(Document pInput) throws AnnotatorException {
		// Hier!!!
		return null;
	}

Hoffe auf Hilfe.

timbeau · 28. Jan 2013

Wenn du es so machst, müsste dir doch Document die nötigen Methoden liefern.

Ansonsten kannst du auch JAXB nutzen, machst aus dem XML-Code Java-Beans und arbeitest mit den Java-Objekten

Joew0815 · 28. Jan 2013

Von welchen Methoden sprichst du genau?

timbeau · 28. Jan 2013

Von denen:

Document (Java Platform SE 7 )

Lemmatisierung & POS Tagging

Joew0815

Bekanntes Mitglied

Joew0815

Bekanntes Mitglied

timbeau

Gesperrter Benutzer

Joew0815

Bekanntes Mitglied

timbeau

Gesperrter Benutzer

Joew0815

Bekanntes Mitglied

timbeau

Gesperrter Benutzer

Aktuelle Jobs

Neue Themen