# String ordentlich trennen (regex, split())?



## BoZA (3. Jan 2009)

Servus,

ich bin gerade etwas am Verzweifeln!!

Mein Problem stellt sich wie folgt dar. Ich versuche eine Textdatei einzulesen und packe sie komplett in einen String.
Dann benötige ich einzelne Information aus dem String für einen Rätselkatalog. Vorweg: Es ist eine Aufgabe für die Uni.

Mein Ansatz war, den String mit Hilfe von regulären Ausdrücken zu trennen.
Doch da stoß ich einfach an meine Grenzen, da meine Kenntnisse zu diesem Thema doch sehr begrenzt sind.
Ich habe hier mir angeschaut, aber auch das konnte mir nicht wirklich weiter helfen.

Evtl. mal ein Auszug aus der txt.



> Wie nennen die Schweizer ein sehr beliebtes sichelfˆrmiges Vanille-Gebäck?
> a) Kipferl :b) Vanille-Hˆrnli :c) Gipfeli
> richtigeAntwort: c
> 
> ...



Das Problem ist für mich auch die Unregelmäßigkeit des Fragezeichens!
Ich wollte aus einer Frage fünf Information entnehmen.
1. Die Frage selbst.
2. Antwort Möglichkeit A.
3. Antwort Möglichkeit B.
4. Antwort Möglichkeit C.
5. Die richtige Antwort.

Den Anstoß habe ich versucht mit:

```
private void raetselFragenSplitten()
	{
		if (textDatei != "")
		{
			test = null;
			test = textDatei.split("[?:]");
			for (int loop = 0; loop < test.length; loop++)
			{
				System.out.println(test[loop]);
			}
		}
```

Dadurch trennt er mir das ganze nach jedem "?" und nach jedem ":".
Aber das bringt mich nicht wirklich zum Ziel.

Ist regex überhaupt das Richtige dafür? (bzw. die split() Methode)??

Vielen Dank für eure hilfe im Voraus!
Anbei die txt Dateien. Textdateien


----------



## SlaterB (3. Jan 2009)

denkbar wäre, nach Zeilenumbrüchen zu trennen,
leere Zeilen ignorierst du bzw. dienen zur Trennung von Fragen,
Zeilen mit "a)" am Anfang enthalten die drei Lösungen,
die Zeile danach die richtige Antwort, alles davor ist die Frage


----------



## BoZA (5. Jan 2009)

Danke erstmal für den Tipp.

Ich Splitte jetzt nach jedem "a)"


```
private void raetselFragenSplitten()
	{
		if (textDatei != "")
		{
			test = null;
			test = textDatei.split(".*a\\)");
			for (int loop = 0; loop < test.length; loop++)
			{
				System.out.println(test[loop] + "-(gesplittet)");
			}
		}
	}
```

Und bekomme dann das ungefähr so hin mit der Ausgabe:


> Wie nennen die Schweizer ein sehr beliebtes sichelförmiges Vanille-Gebäck?
> -(gesplittet)
> Kipferl :b) Vanille-Hörnli :c) Gipfeli
> richtigeAntwort: c
> ...



Aber wie splitte ich jetzt am dümmsten weiter? Habe es mit folgendem Ausdruck probiert:
	
	
	
	





```
test = textDatei.split(".*a\\).*b\\).*c\\)");
```
Aber da verdrängt er alles was vor dem letzten Ausdruck ".*c\\)" ist.


> Wie nennen die Schweizer ein sehr beliebtes sichelförmiges Vanille-Gebäck?
> -(gesplittet)
> Gipfeli
> richtigeAntwort: c
> ...


Um halt mehrere Sachen zu zerlegen. Wie bekomm ich da mehrere Ausdrück in die Split-Methode?
Und nach einem Zeilenumbruch mit "\\n erledigt auch auch nur bedingt"

Danke wieder mal für eure Hilfe im Voraus!!


----------



## fjord (5. Jan 2009)

Zerlege dir dein Problem am besten in mehrere Teilprobleme.
Die Fragen und Antworten gehören vom Sinn her ja zueinander.
Dazwischen befindet sich immer eine Leerzeile. Also würde ich zuerst dort splitten.

```
String[] parts = textDatei.split("\r?\n\r?\n");
```
Bearbeite jeden dieser Teile für sich alleine mit einer for Schleife.
Du weißt, dass diese Teile aus 3 Zeilen bestehen und auch, dass in der 2. Zeile 3 Antwortmöglichkeiten sind die mit ':' voneinander getrennt sind.

Dass du mit 
	
	
	
	





```
test = textDatei.split(".*a\\).*b\\).*c\\)");
```
 soviel Text verlierst liegt daran, dass _split_ den Teil den du angibst entfernt. Dein Teil passt aber auf Antwort a und b.


----------



## SlaterB (5. Jan 2009)

```
public class Test
{
    public static void main(String[] args)
        throws Exception
    {
        String textDatei = "a) Himmelpforten :b) Christhausen :c) Winterberg";
        String[] test = textDatei.split(" *a\\) *| *:b\\) *| *:c\\) *");
        System.out.println(Arrays.toString(test));
    }

}
```
| ist eine Alternative
Leerzeichen* bedeutet, dass die Leerzeichen links und rechts entfernt werden bzw. genauer: mit als Trennzeichen gelten


----------



## BoZA (5. Jan 2009)

Super Jungs, danke euch!!!

Der Code sieht jetzt wie folgt aus:

```
private ArrayList<String> antworten = new ArrayList<String>();

private void raetselFragenSplitten()
	{
		if (textDatei != "")
		{
			test = null;
			int zaehler = -3;
			test = textDatei.split("\r?\n");
			for (int loop = 0; loop < test.length; loop++)
			{
				System.out.println(test[loop] + loop);
			}
			for (int loop = 0; loop < test.length; loop++)
			{
				if ((zaehler + 4) < test.length)
				{
					String[] cache = test[zaehler + 4].split(" *a\\) *| *:b\\) *| *:c\\) *");
					for (int loopin = 0; loopin < cache.length; loopin++)
					{
						antworten.add(cache[loopin]);
					}
					String[] cache2 = test[zaehler + 5].split(" *richtigeAntwort: *");
					for (int loopin = 0; loopin < cache2.length; loopin++)
					{
						antworten.add(cache2[loopin]);
					}
					System.out.println(zaehler +4);
					zaehler = zaehler + 4;
				}
			}
			for (int loop = 0; loop < antworten.size(); loop++)
			{
				System.out.println(antworten.get(loop));
			}
		}
	}
```
Ausgabe:


> Wie nennen die Schweizer ein sehr beliebtes sichelförmiges Vanille-Gebäck?0
> a) Kipferl :b) Vanille-Hörnli :c) Gipfeli1
> richtigeAntwort: c2
> 3
> ...



Und das was in dem ArrayList drin ist:


> Kipferl
> Vanille-Hörnli
> Gipfeli
> 
> ...



Ich muss jetzt euch leider nochmal fragen, wie ich den Space da wegbekomme?!
Gewünschtes Ziel


> Kipferl
> Vanille-Hörnli
> Gipfeli
> c
> ...



Nochmal riesen Dank an euch beide!!


----------



## SlaterB (5. Jan 2009)

> String[] cache = test[zaehler + 4].split(" *a\\) *| *:b\\) *| *:c\\) *")

element 0 des Arrays kannst du ignorieren, bei cache2 wahrscheinlich genauso

oder auch später die Leerzeilen aus der Liste entfernen, ist doch keine schwere Sache


----------



## BoZA (5. Jan 2009)

```
private void leereZeichenInListeLöschen()
	{
		for (int loop = 0; loop < antworten.size(); loop++)
		{
			if (antworten.get(loop).equals(""))
			{
				antworten.remove(loop);
			}
		}
	}
```

Ich bedanke ich bei allen die geholfen haben!!! Danke schön!!!!


----------



## fjord (5. Jan 2009)

Da du im Titel ja auch regex ansprichst, hier mal wie man das auch mit mit einem regex lösen kann.
Auf den ersten Blick sehen regex natürlich ziemlich kryptisch aus, aber wenn man sich damit ein bisschen beschäftigt hat, ist der Code meiner Meinung nach meistens übersichtlicher als wenn man mit mehreren splits arbeitet.

```
Pattern p = Pattern.compile(
    "([^\r\n]+)\r?\n" +         // question
    "a\\)([^:]+)" +             // answer a
    ":b\\)([^:]+)" +            // answer b
    ":c\\)([^\r\n]+)\r?\n" +    // answer c
    "richtigeAntwort: ([abc])");// correct answer
Matcher m = p.matcher(textDatei);        
while (m.find()) {
    String question = m.group(1);
    String answerA = m.group(2);
    String answerB = m.group(3);
    String answerC = m.group(4);
    String correct = m.group(5);

    // irgendwas mit den Daten anstellen
}
```


----------



## BoZA (5. Jan 2009)

cool danke, das werd ich auch mal testen...merci nochmal!!!


----------



## BoZA (19. Jan 2009)

Servus, ich mal wieder ^^

Gleiches Thema, nur diesmal ein anderer String. Hoffe es ist okay, wenn ich hier nochmal reinschreibe und das Häckchen untern entferne.

Habe diesmal ein csv Datei. Unabhängig davon, lese ich diese Datei wieder ganz normal ein und drücke es in einen String.
Nur happert es wieder bei dem regEx. Diesmal versuche ich es mit dem pattern.compile() also nicht mit String.split().

Mein Beispiel Daten:


> DATEI;BEZEICHNUNG;BESCHREIBUNG;;
> 576822.jpg;Adam Elsheimer: Die Flucht nach gypten (1609);Vor der Kulisse des...;;
> 298598.jpg;Adolph von Menzel: Wohnzimmer mit Menzels Schwester (1847);Unabhngig von den...;;
> 998314.jpg;Albrecht Altdorfer: Susanna im Bade (1526);Anders als sptere Darstellungen...;;



Habe Information abgekürzt, damit der hier nicht ein Scrollbalken bis nach China macht.

Aufgabe ist Klar, 3 Datensätze jeweils getrennt mit einem Semikolon. Der Abschluss bildet ein doppeltes Semikolon.

Mein Ansatz.

```
Pattern p = Pattern.compile(
						"([a-zA-Z0-9\\s\\.]+);" + // bild nummer
						"([a-zA-Z0-9\\s\\.]+);" + // bezeichnung
						"([a-zA-Z0-9\\s\\.]+);;"); // erklaerung
				Matcher match = p.matcher(dateiInhalt);
				while (match.find())
				{
					String bildTmp = match.group(1);
					String bezeichnungTmp = match.group(2);
					String erklaerungTmp = match.group(3);
					csvFile.add(new MeineDaten(bildTmp, bezeichnungTmp, erklaerungTmp)); // Daten zuweisen
				}
```

Ich habe höchstwahrscheinlich ein Problem mit dem Absatz nach dem dritten Datensatz bei dem das doppelte Semikolon den Abschluß bildet, oder?

Danke für eure hilfe im Voraus!!


----------



## fjord (26. Jan 2009)

Hi,
ich hab deinen Post leider jetzt erst gesehen. Hoffe mal, dass es nicht zu spät ist. 
Dein Problem sind nicht die ;;, sondern die Jahreszahlen in den Klammern. Die Klammern sind nämlich nicht Teil deiner Zeichenklasse. Falls du sicher sein kannst, dass in den Feldern deines csv Files keine ; vorkommen, kannst du mit einer negierten Zeichenklasse arbeiten: [^;] statt [a-zA-Z0-9\\s\\.]


----------

