# Informationen aus komplexen String parsen



## MichaelB_z7ssfr (17. Jan 2012)

Hallo allesamt,

ich brauche etwas Hilfe einen String zu parsen. Und zwar geht es um einen formatierten Text, der für das menschliche Auge gut lesbar ist. Dieser enthält einige Informationen, die ich auslesen möchte. Der Aufbau dieses Textes ist mir bekannt, es gibt einige Regeln, wie

- Firmenname steht immer an Position 4 - nächster Blank
- Artikelnummern beginnen nach "Ihre Bestellung:\n" und die sind duch "\n" getrennt.
- Verkäufernummer steht immer in der letzten Zeile.

Solche Regeln halt. Mit viel indexOf und Regex-Gefrickel bekomme ich das alles wohl auch raus. Ich frage mich aber, ob es sowas nicht schon einfacher gibt. Irgendein Framework, das ich mit solchen Regeln konfigurieren kann und das mir dann ein gefülltes Objekt oder eine gefüllt Map zurückgibt.

Hat einer ein Schlagwort für mich?

Gruß Michael


----------



## schlagi123 (18. Jan 2012)

Hallo MichaelB_z7ssfr,

hier ein kleines Beispiel:

```
String s = "Hallo dies ist ein Test";
StringTokenizer tokenizer = new StringTokenizer(s," ", false);

ArrayList<String> tokens = new ArrayList<String>();
while (tokenizer.hasMoreTokens()){
    tokens.add(tokenizer.nextToken());
}
```

Im zweiten Parameter des StringTokenizer ist ein String. Jedes Zeichen dieses Strings gilt als Trennzeichen (Im Beispiel nur das Leerzeichen). der Dritte Parameter gibt an, ob die Trennzeichen auch als Tokens benutzt werden sollen (Im Beispiel false, weil ich nur die einzelnen Wörter haben möchte).

Griß schlagi123


----------



## MichaelB_z7ssfr (18. Jan 2012)

Die ganzen Low-Level Funktionen sind mir bekannt. Ich suche etwas, dass 2-3 Ebenen höher arbeitet. Als Codebeispiel würde ich mir etwas in der Art wünschen:


```
String meineRechnung = "Kaufhaus Patzig\nPatzstrasse 7\n12345 Patzstadt\n\nIhr Einkauf:\nDose Cola\t1\t€0.59\nKinderriegel\t1\t€0.25\n\nGesamt: €0.84\nEs bediente Sie: Bernd";

CoolesFramework cfw = new CoolesFramework();
cfw.setVariable("PLZ", "coole Syntax");
cfw.setVariable("Artikel", "coole Syntax");
cfw.setVariable("Verkäufer", "coole Syntax");

Map<String, Object> result = cfw.parse(meineRechnung);
Assert.assertEquals("12345", result.get("PLZ"));
Assert.assertEquals(2, result.getArray("Artikel").length);
Assert.assertEquals("Bernd", result.get("Verkäufer"));
```

Muss natürlich nicht genauso aussehen, aber die Idee wird hoffentlich klar.

Gruß Michael


----------



## irgendjemand (18. Jan 2012)

wenn du mit sowas arbeiten willst musst du es dir wohl selbst programmieren ... aber ein framework dieser art gibt es nicht da dich jeder lediglich an RegEx verweisen würde ...


----------



## ARadauer (18. Jan 2012)

Diese coole sytax wäre sehr complex wo wier wieder bei regex wären, also mir ist da nix bekannt, finde die idee aber interessant


----------



## MichaelB_z7ssfr (18. Jan 2012)

RegEx war für mich bisher etwas, dass einen Text gegen eine bestimmte Syntax prüft, aber keine Werte rausholen kann. Also sagen kann "In diesem Text gibt es eine PLZ", aber nicht "Die PLZ ist 12345". Vielleicht habe ich RegEx bisher unterschätzt...

Kannst du mir ein Beispiel geben, wie ich aus oberem Beispiel die PLZ ermittele unter der Annahme, dass die immer mit der dritten Zeile beginnt und bis zum ersten Blank der ersten Zeile geht?


----------



## irgendjemand (18. Jan 2012)

warum soll man mit RegEx keine werte rausholen können ?
schau dir die docs zu java.util.regex.Pattern und java.util.regex.Matcher noch mal genau an ... vor allem was das sog. grouping angeht ...


----------



## faetzminator (18. Jan 2012)

MichaelB_z7ssfr hat gesagt.:


> Kannst du mir ein Beispiel geben, wie ich aus oberem Beispiel die PLZ ermittele unter der Annahme, dass die immer mit der dritten Zeile beginnt und bis zum ersten Blank der ersten Zeile geht?



Kein Problem, hier erstens die konventonelle und dann noch eine Einzeilermethode:

```
public static String extract1(String input) {
    Matcher m = Pattern.compile(".*\\n.*\\n(.*?) ").matcher(input);
    if (m.find()) {
        return m.group(1);
    }
    return input;
}

public static String extract2(String input) {
    return input.replaceFirst(".*\\n.*\\n(.*?) (.|\\s)*", "$1");
}
```


----------



## Michael... (18. Jan 2012)

MichaelB_z7ssfr hat gesagt.:


> Kannst du mir ein Beispiel geben, wie ich aus oberem Beispiel die PLZ ermittele unter der Annahme, dass die immer mit der dritten Zeile beginnt und bis zum ersten Blank der ersten Zeile geht?


Wenn man die Annahme trifft, bräuchte man nicht mal RegEx. Falls noch nicht geschehen zerlegt man den String in seine Zeilen. In der dritten Zeilen sucht man mit indexOf nach dem ersten Leerzeichen und holt sich die Postleitzahl per substring. Die Artikel erkennt man daran, dass diese zwischen der Zeile "Ihr Einkauf:" und "Gesamt" stehen. Danach folgt direkt der Verkäufer, den man zur Not auch finden kann in dem man nach einer Zeile sucht, die mit "Es bediente" beginnt.
Zugegeben mit RegEx geht das ein bisschen eleganter.


----------



## MichaelBulla (23. Jan 2012)

Hurra, habe sogar meine Zugangsdaten wiedergefunden.

Erst mal danke für die Hilfe soweit. Es sieht tatsächlich so aus, als hätte ich Regex bisher total unterschätzt. Aber wirklich glücklich bin ich damit noch nicht. Aber vermutlich suche ich nichts, was 2-3 Ebenen über Regex liegt, sondern nur eine .

Das ganze Geregexe läuft darauf hinau, dass ich immer nur kleine Teile des gesamten Textes analysiere, um an Informationen ranzukommen (z.B. beachtet die PLZ-Regex gar nicht, was da hinten bei den Lineitems steht). Ich möchte etwas, das ich über den gesamten Text legen kann, das die relevanten Textstellen maskiert und das mir dann die jeweiligen Informationen zur Verfügung stellt.

Sicher könnte ich jetzt mit meinem neuerworbenen Wissen eine Regex erstellen, die ich auf den gesamten Text anwende, die alle relevanten Stellen als group definiert und dann über die Groups alles auslesen. Dabei ergeben sich aber zwei Probleme:
- Das wird schon für mäßig komplexe Texte eine Regex von mehreren DIN A4 Seiten
- Mit den Groups komme ich in Reihenfolge-Probleme: Angenommen ich will aus dem o.g. Bon PLZ und Verkäufername parsen. Nun erstelle ich eine Regex, in der die Group1 die PLZ darstellt, und die Group2 den Verkäufernamen. Wenn sich der Aufbau des Bons dahingehend ändert, dass der Verkäufer nun über der PLZ steht, dann muss ich nicht nur die Beschreibung des Bons umkonfigurieren, sondern auch noch im Code ändern, dass nun der Verkäufer nun aus der Group1 gelesen werden muss und die PLZ aus der 2.

Ich gebe ja zu, dass ich nicht ganz wenig verlange. Aber der Wunsch Schlüsselworte / Schlüsselpositionen in einem Fließtext zu suchen ist doch auch nicht ganz aus der Welt gegriffen. Oder ist das tatsächlich eine so komplexe Anforderung, dass ich grob in Richtung Compilerbau gucken muss?!?

EDIT:
Noch mal drüber nachgedacht... Aufs obere Beispiel angewendet, könnte das wie folgt aussehen:


```
String rechnungTemplate = "${Header}\n${Strasse} ${Hausnummer}\n${PLZ} ${Stadt}\n${Adresszusatz}\nIhr Einkauf:\n${repeatable:Artikel}${Artikelname}\t1\t€${Artikelpreis}\n${repeatable:end}Es bediente Sie: ${Verkäufer}<eof>";

String meineRechnung = "Kaufhaus Patzig\nPatzstrasse 7\n12345 Patzstadt\n\nIhr Einkauf:\nDose Cola\t1\t€0.59\nKinderriegel\t1\t€0.25\n\nGesamt: €0.84\nEs bediente Sie: Bernd";
 
CoolesFramework cfw = new CoolesFramework(rechnungTemplate);
 
Map<String, Object> result = cfw.parse(meineRechnung);
Assert.assertEquals("12345", result.get("PLZ"));
Assert.assertEquals(2, result.getArray("Artikel").length);
Assert.assertEquals("Bernd", result.get("Verkäufer"));
```

Wie ich das Beispiel so zusammengeschrieben habe, hat die o.g. Syntax bisschen was von XML. Fällt einem von euch vielleicht auf dieser Basis etwas ein, was man benutzen kann? XSLT irgendwie zweckentfremden, oder so?


----------



## Michael... (23. Jan 2012)

Man muss das ganze ja auch nicht unbedingt mit nur einem RegEx machen. (Wie gesagt könnte man das ja auch ganz ohne)
Aber gewisse Annahmen muss man schon treffen können, z.B. das eine fünfstellige Anzahl am Zeilenanfang eine Postleitzahl darstellt...
und wenn es Schlüsselwörter gibt, kann man ja nach deren Position suchen.


MichaelBulla hat gesagt.:


> ```
> String rechnungTemplate = "${Header}\n${Strasse} ${Hausnummer}\n${PLZ} ${Stadt}\n${Adresszusatz}\nIhr Einkauf:\n${repeatable:Artikel}${Artikelname}\t1\t€${Artikelpreis}\n${repeatable:end}Es bediente Sie: ${Verkäufer}<eof>";
> 
> String meineRechnung = "Kaufhaus Patzig\nPatzstrasse 7\n12345 Patzstadt\n\nIhr Einkauf:\nDose Cola\t1\t€0.59\nKinderriegel\t1\t€0.25\n\nGesamt: €0.84\nEs bediente Sie: Bernd";
> ...


Der XML Vergleich ist jetzt doch ein bisschen weit her geholt ;-) Bei XML gibt es ja die auszeichnenden Tags, welche die Bedeutung des Wertes definieren. Die fehlen hier auf der Rechnung.


----------



## vanny (23. Jan 2012)

Grob genommen hast du nur 2 Möglichkeiten:

1. Deine DatenQuelle, welcher Art auch immer, hat eine feste Struktur, mit irgendwelchen Trennzeichen.
2. Die einzelnen Daten sind mit irgendwelchen Schlüsseln versehen (artikel="123765").

zu 1.
Du parst den Inhalt und schlüsselst ihn anhand der jeweiligen Position auf.
Nachteil ist wie du schon gemerkt hast, dass eine Änderung der Aufteilung auch eine Änderung im Code nach sich ziehen würde.

zu 2.
XML ist nicht um sonst so Wertvoll xD.
EDIT: ja der XML Vergleich hinkt ganz schön, ist aber schon die Richtung

Gruß Vanny


----------



## MichaelBulla (23. Jan 2012)

vanny hat gesagt.:


> Nachteil ist wie du schon gemerkt hast, dass eine Änderung der Aufteilung auch eine Änderung im Code nach sich ziehen würde.



Das will ich ja eben vermeiden. Kurz zum Hintergrund: Ich bekommen "Kassenbons" von 100en verschiedener Providern (und es sind auch keine Kassenbons, aber das Beispiel ist so schön greifbar). Mein Ziel ist es die Syntax der generierten Daten anhand einer Konfiguration beschreiben zu können. Und am liebsten auch nur mit einer Zeile in der Property-Datei und nicht je ein Eintrag pro Variable und pro Provider.

Der Vergleich mit XML kommt, wenn man das o.g. Beispiel weiterspinnt:
- Wiederholende Werte haben wir schon
- Optionale könnten dazukommen
- Vielleicht will ich den Datentypen mitgeben
- Validierungen
- ...


```
String rechnungTemplate = """<variable name="Header"/><newLine/>
<variable name="Strasse"/><blank/>
<variable name="Hausnummer" type="int"/><newLine/>
<variable name="PLZ" validation="\d{5,5}"/><blank/>
<variable name="Stadt"/><newLine/>
<optional><variable name="Adresszusatz"/><newLine/></optional>
Ihr Einkauf:<newLine/>
<repeatable name="Artikel">
  <variable name="Artikelnummer"/>
  <tab/><tab/>€<variable name="Artikelpreis"/><newLine/>
</repeatable>
<optional>Es bediente Sie: <variable name="Verkäufer"/></optional>
<eof/>""";
```

Najut, dies nur der Vollständigkeit halber (falls hier grad jemand auf der Suche nach einem Code Kata ist  ). Verliere aber gerade tatsächlich die Hoffnung was Fertiges zu finden.


----------



## Michael... (23. Jan 2012)

XML ist eine auszeichnende Sprache, die Daten werden hier hinsichtlich ihrer Bedeutung gekennzeichnet, z.B.
[XML]<ArticleList>
   <Position id="1">
      <Article>
         <Name>Cola</Name>
         <Price currency="EUR">0.5</Price>
      </Article>
      <Amount>4</Amount>
      ...
   </Position>
</ArticleList>[/XML]
Eine solche Beschreibung der Inhalte gibt es auf Deinem "Kassenbon" nicht. Du bzw. Dein Programm muss daher die Daten interpretieren - möglichst anhand von Regeln dir für alle Varianten des "Kassenbons" gelten.
Welche Regeln da gelten könnten ist ohne die Daten zu kennen schwer zu sagen.


----------

