# Daten aus doc, pdf .... auslesen



## Moinsn (17. Aug 2011)

Moinsn,

Ich bin grad dran eine Lösung zum auslesen von Daten aus Bewerbungen zu finden. Eine Personalabteilung würde gern die Daten nach Schlagwörtern durchsuchen und in SugarCRM einpflegen können. Das Problem dabei ist, dass die Bewerbungen in unterschiedlichen Formaten und Formatierungen vorliegen. Hat vllt. jmd. von euch nen Lösungsansatz? 

DANKE


----------



## Gonzo17 (17. Aug 2011)

Für Word (.doc/.docx) kannst du Apache POI - the Java API for Microsoft Documents nehmen.

Für PDF könntest du iText nehmen.


(Lustig, wie innerhalb kürzester Zeit einige Leute nach den gleichen Dingen fragen  )


----------



## Moinsn (17. Aug 2011)

Na das ist ja schon mal die halbe Miete. Nur werde ich spätestens bei den unterschiedlichen Formulierungen in den Bewerbungen Probleme bekommen. Ich werde also wahrscheinlich bestimme Schlagwörter (z.B "Kenntnisse" o. "Fähigkeiten") vordefinieren müssen und dann hoffen dass ich so auf halbwegs vernünftige Resultate komme. Das nächste Problem wird wohl sein, dass das Programm nicht weiß wie viel des nach einem Schlagwort kommenden Text auch wirklich zu einem Schlagwort gehört. 

Das wird wohl alles gar nicht so leicht. Evtl. hat ja hier jmd. schon Erfahrungen mit etwas ähnlichen gesammelt und somit ein paar Tipps für die Herangehensweise.


----------



## SlaterB (17. Aug 2011)

Tipp: gib gleich auf, bzw. begnüge dich damit, den Text als ganzes zu extrahieren
oder wie es am Anfang klingt die Information Schlagwort 'x' vorhanden: ja/nein herauszufinden

je nach Strukturierung mit (unsichtbaren) Tabellen usw. könnte die Auslesereihenfolge auch 
"Name"
"Ort"
"Kenntnisse"
"Fähigkeiten"
"Max"
"München"
"Java"
"Jonglieren"
sein

neben all den weiteren Problemen wie 400 mögliche Formulierungen der Kategorie 'Name'


----------



## Gonzo17 (17. Aug 2011)

Moinsn hat gesagt.:


> Na das ist ja schon mal die halbe Miete. Nur werde ich spätestens bei den unterschiedlichen Formulierungen in den Bewerbungen Probleme bekommen. Ich werde also wahrscheinlich bestimme Schlagwörter (z.B "Kenntnisse" o. "Fähigkeiten") vordefinieren müssen und dann hoffen dass ich so auf halbwegs vernünftige Resultate komme. Das nächste Problem wird wohl sein, dass das Programm nicht weiß wie viel des nach einem Schlagwort kommenden Text auch wirklich zu einem Schlagwort gehört.
> 
> Das wird wohl alles gar nicht so leicht. Evtl. hat ja hier jmd. schon Erfahrungen mit etwas ähnlichen gesammelt und somit ein paar Tipps für die Herangehensweise.



Wie SlaterB sagt ist es wohl am einfachsten und eindeutigsten, wenn du nur überprüfst, ob das Schlagwort da ist. Wenn es zB um bestimmte Qualifikationen geht, dann kannst du einfach diese bestimmten Worte abfragen und wenn keines zutrifft, dann ist die Wahrscheinlichkeit schon recht hoch, dass der Bewerber das nicht drin stehen hat und tatsächlich diese Qualifikation nicht hat.

Beim Erfassen von Daten wie dem Namen würde ich arg aufpassen. Es gibt Menschen mit zwei Nachnamen, zwei Vornamen, noch mehr Vornamen, doppelte Nachnamen, Geburtsnamen - das kann man ja nicht ohne Weiteres auseinanderhalten. Alternative: ein eigenes Bewerbungsformular zur Verfügung stellen. Ich erinnere mich, dass man bei SAP seine Daten (Name, Geburtsdaum, usw) manuell eingegeben hat und als Anhang dann einen Lebenslauf anhängen musste. Somit hatten die aber auf jeden Fall schonmal meine Basisdaten direkt extrahiert ohne größeren Aufwand.


----------



## Moinsn (17. Aug 2011)

Ihr habt wohl recht und bestätigt damit das, was ich mir von Anfang an dachte. Aus den Bewerbungen 100%tig valide Textpassagen raus ziehen und in die dazugehörigen Sugar Tabellen ballern wird wohl kaum möglich sein. Ich werde wohl ein Online- Bewerbungsformular vorschlagen müssen, bei dem es so läuft wie Gonzo17 vorgeschlagen hat. Das machen ja  große Firmen wie Lufthansa, SAP, u. IBM alle so.
Nur sind damit leider die vorhandenen 3800 Bewerbungen noch nicht im System. 

Dafür wird wohl ein Praktikant der benachbarten Uni her halten müssen


----------



## Gonzo17 (17. Aug 2011)

Ne, 100% zu erreichen ist da quasi unmöglich. Selbst wenn es einheitliche Schreibweisen für eine Bewerbung und einzelne Felder wie Name, Wohnort, usw gäbe, dann würden es doch trotzdem 50% der Bewerber nicht schaffen, die komplett einzuhalten. Und man will ja auch nicht bei jedem zweiten Bewerber die Hälfte der Daten dann doch wieder manuell abtippen. Deswegen eben die Eingabe verschiedener Daten "erzwingen" mit einem Formular. Den Lebenslauf nach Stichworten durchsuchen kann man ja trotzdem machen - aber eben als "Extra".



Moinsn hat gesagt.:


> Dafür wird wohl ein Praktikant der benachbarten Uni her halten müssen



Immer die Praktikanten


----------



## kama (17. Aug 2011)

Hallo,

schau Dir mal das Projekt Tika an...

Apache Tika - Apache Tika

Gruß
Karl Heinz Marbaise


----------



## Dow Jones (17. Aug 2011)

Moinsn hat gesagt.:


> Das wird wohl alles gar nicht so leicht. Evtl. hat ja hier jmd. schon Erfahrungen mit etwas ähnlichen gesammelt und somit ein paar Tipps für die Herangehensweise.



Das zwar nicht direkt, aber ich war mal HiWi am Lehrstuhl für _Information Retrieval_. Dort beschäftigt man sich mit genau solchen Fragen, von daher solltest du dich in dem Bereich mal einlesen. Mich selbst hat das allerdings nie interessiert, ich habe dort nur vorübergehend meine Brötchen verdient.



Moinsn hat gesagt.:


> Nur werde ich spätestens bei den unterschiedlichen Formulierungen in den Bewerbungen Probleme bekommen.



Da könnte es schon helfen auf die Texte einen einfachen Stemming-Algorithmus anzuwenden und bei einem eingegebenen Suchwort das Woxikon nach Synonymen zu befragen.



Moinsn hat gesagt.:


> Das nächste Problem wird wohl sein, dass das Programm nicht weiß wie viel des nach einem Schlagwort kommenden Text auch wirklich zu einem Schlagwort gehört.



Dafür gibt es durchaus Maßeinheiten: _Relevance_ (wie Relevant ist ein Text für ein Thema?), _Coverage_ (wie erschöpfend behandelt der Text das Thema?), _NameVergessen_ (wieviel unnötiges Gesülze steht in dem Text?) etc.
Das ganze ist so eine Wissenschaft für sich, aber da man bei Bewerbungen ja relativ genau weiss welchen Inhalt man bei den Texten erwarten kann - möglicherweise kann man ja schon mit recht geringem Aufwand brauchbare Ergebnisse erzielen.


----------



## Gonzo17 (18. Aug 2011)

Dow Jones hat gesagt.:


> Das ganze ist so eine Wissenschaft für sich, aber da man bei Bewerbungen ja relativ genau weiss welchen Inhalt man bei den Texten erwarten kann - möglicherweise kann man ja schon mit recht geringem Aufwand brauchbare Ergebnisse erzielen.



Das ist vielleicht so ein bisschen das Problem. Es gibt ja möglicherweise durchaus Lösungsansätze, aber kommt man da ohne Vorkenntnisse und Erfahrung so schnell rein, dass es sich lohnt? Der Aufwand zu Beginn könnte eben sehr hoch sein.


----------



## Moinsn (18. Aug 2011)

Ich glaube den Aufwand (Einarbeitung und Implementierung) werden die wohl kaum in Geld Aufwiegen wollen. Es ist, wie ich mir schon von Anfang an dachte, mal wieder komplizierter als der Kunde das dachte. 
Nichts desto trotz muss wohl irgendeine Lösung her. Ich bin schon am überlegen ob sich die Windows eigene Suche nicht irgendwie Benutzerfreundlich einrichten lässt. Da könnten die ja wenigstens bspw. "inhalt: iOS" eingeben und bekommen, wenn die Indizierung eingeschaltet ist, relativ zügig eine Liste mit Bewerbern die das in der Bewerbung stehen haben und somit evtl. in Frage kommen. Nur wie das jetzt mit SugarCRM verknüpft werden kann weiß ich noch nicht.
Hab nachher n Meeting und werde mir erstmal einen genauen Überblick über die Anforderungen verschaffen. 

DANKE für eure Tipps.   
Das ist alles viel Wert zumahl ich als Entwickler noch in den Kinderschuhen stecke und einiges noch nicht kenne.


----------



## Dow Jones (18. Aug 2011)

Moinsn hat gesagt.:


> Ich glaube den Aufwand (Einarbeitung und Implementierung) werden die wohl kaum in Geld Aufwiegen wollen. Es ist, wie ich mir schon von Anfang an dachte, mal wieder komplizierter als der Kunde das dachte.


Yo, wenn man sowas "gut" machen will, dann muss man sich wohl entweder wochenlang in so ein Fachgebiet einlesen - oder den fachkundigen Praktikanten von der Uni einstellen. 

Falls das wochenlange studieren nicht in Frage kommt, und du keine fertige Library für deine Zwecke findest, würde ich mal folgendes versuchen (sauge ich mir gerade aus den Fingern, also keine Garantie das es was taugt):

Beim Einlesen der Bewerbungen könnte es sich lohnen gleich ein Preprocessing durchzuführen. Um die Bewerbungstexte ersteinmal etwas zu strukturieren könnte man versuchen jeden Absatz einem Thema zuzuordnen. Dabei würde ich einen Absatz nach einer vordefinierten Liste von Schlagwörtern und deren Synonymen (bezüglich der verschiedenen Themen) durchsuchen und für jedes Vorkommen eines Schlagworts Punkte vergeben. 
Beispiel: Wenn in dem Absatz die Wörter _Fähigkeiten_ oder _Kenntnisse_ vorkommen, zählt das jeweils 5 Punkte für das Thema Qualifikationen. _Interesse_ gibt dagegen nur 3 Punkte. Wörter wie _Eltern_ oder _Geschwister_ zählen 5 Punkte im Bereich Familiengeschichte. _Vater_ könnte 2 Punkte für Familiengeschichte und einen Punkt für Qualifikationen geben (ein Satz a là "in der Autowerkstatt meines Vaters lernte ich..." ist ja gar nicht mal unüblich).
Am Ende wird der Absatz halt dem Thema zugeordnet, das die meisten Punkte gesammelt hat. Falls kein Thema eine klare Punktmehrheit hat könnte man den Kontext zur Entscheidung heranziehen (also die Themen der vorrangegangenen und nachfolgen Absätze). Oder den User bitten den Absatz manuell einem Thema zuzuordnen.
Gegebenenfalls kann man die Absätze/Bewerbungen dabei auch gleich nach den gefundenen Synonymen indizieren (also vermerken, das dort beim Thema Qualifitationen das Wort _Ingenieur_ gefunden wurde (oder _Techniker_, _Konstrukteur_... etc).

Nach dem gleichen Verfahren könnte man anschließend hergehen und die einzelnen Absätze weiter auseinandernehmen (um Beispielweise Ingenieure von Sekretärinen zu unterscheiden).

Die Suchworte die der Anwender - also der Personalbearbeiter - eingibt sollten mit der oben erwähnten Liste von Schlagwörtern/Synonymen abgeglichen werden. Der Anwender kann dann wählen ob er z.B. alle Bewerbungen von Ingenieuren (und Artverwandten) sehen möchte, oder alle Bewerbungen die etwas mit Design zu haben, oder ob er einfach nach genau einem Suchwort suchen möchte (beispielsweise der Stellenbezeichnung, die in einer Ausschreiben angegeben war).


Bei alldem muß man sich allerdings immer im Klaren darüber sein das ein solches Verfahren "beliebig falsche" Ergebnisse produzieren kann. Die Fantasie eines Softwareentwicklers ist nie so groß wie die Kreativität der Anwender/Bewerbungsschreiber... Gerade wenn man die erwähnte Liste von Schlagwörtern und deren Synonymen anlegt. Von daher ist es keine Schande wenn die Software auch mal ein unzutreffendes Suchergebnis anzeigt, oder schlicht sagt: "weiss ich nicht". Sinnvoll wäre es da wohl den Suchergebnissen ein Rating zu verpassen und sie anschließend nach diesem Rating sortiert anzuzeigen. Wäre allemal besser als wenn eine Bewerbung wegen nicht bedachter Formulierungen oder Tipp-/Konvertierungsfehler durchs Raster fällt.


Denkbar ist es natürllich das der Anwender nach Daten suchen möchte, die sich damit nicht so ohne weiteres erfassen lassen, etwa nach dem Alter des Bewerbers oder dessen Berufserfahrung. Da kann man sich zwar auch einfache Methoden für überlegen, um so etwas automatisch aus Texten herauszulesen, allerdings würde ich mich darauf eher nicht einlassen. Wenn man sich im Bereich Information Retrieval nicht auskennt und nur einfach mal so etwas zusammenhackt, dann dürfte die Fehlerrate zu hoch sein als das man es guten Gewissens verwenden kann. Selbst bei uns an der Uni wurden sämtliche Ergebnisse von Hand verifiziert (wobei wir aber auch nichts Produktives erarbeiten wollten, sondern uns nur mit experimentellen Kram beschäftigt haben).


Viel Erfolg! 


PS: Der Porter Stemmer ist easy zu implementieren und wird dir sicherlich gute Dienste Leisten


----------



## Moinsn (18. Aug 2011)

Ich bin beeindruckt dass du dir da mal eben ne ziemlich sinnvolle Geschichte zusammengedacht hast. Hört sich sogar mehr oder weniger umsetzbar an. Nur für mich Noob eben nicht ^^ 

Ich habe nun eine Gängige Lösung gefunden ...
Hab mir überlegt einen Tomcat Server aufzusetzen auf dem Apache Solr läuft, alle Dokumente indiziert und somit eine Volltextsuche zur Verfügung stellt. Die muss nun nur noch in SugarCRM integriert werden und schon hat die Personalabteilung die Möglichkeit alle Bewerbungen nach allen Möglichen Daten zu Durchsuchen.

Das sollte die Aufgabenstellung lösen und für mich mehr oder weniger umsetzbar sein wenn ihr mir weiterhin so klasse Feedback gebt.

DANKE für alles!
BisDensn


----------

