# Abstruse Probleme mit eigenem replace Algorithmus



## Don83 (8. Apr 2009)

Hallo,
also nachdem ich unter Java 1.3.1 arbeiten muss und die Methode replaceAll leider nicht zur Verfügung steht wollte ich replaceAll quasi selber nachimplementieren. Zumindest so, dass es für meine zwecke einigermaßen passt.
So ich habe jetzt seeeeeehr merkwürdige Probleme. Ich kann die Probleme kaum in Worte fassen.
Also....hier ist mal mein Replace algorithmus.

```
package rmi;

import java.io.BufferedReader;
import java.io.FileReader;

public class ReplaceTags2 {

	public static String replaceTags(String xml_output, String firstTag,
			String secondTag, String insertion) {
		//System.out.println(insertion);
		int firstTagSize = firstTag.length(); // example:</anc> = 6
		int secondTagSize = secondTag.length(); // exmaple:<chd> =5

		int insertposition = 0; // position where to insert the tags
		boolean needChange = false; // determines if an insertion is needed

		int j = 0; // count parameter to determine the position of the firsTag

		for (int i = 0; i < xml_output.length(); i++) {

			if (xml_output.charAt(i) == firstTag.charAt(j)) {
				j++;
				if (j == firstTagSize) {
					// System.out.println("First tag recognized");
					insertposition = i;

					// ignore whitespaces between
					// tags-example:</anc>[whitepsaces]<sib>
					while ((xml_output.charAt(i + 1) == ' ')
							|| (xml_output.charAt(i + 1) == '\n')) {
							//System.out.println(xml_output.charAt(i+1));
						i++;

					} // end while
					i++;
					// Test for second tag
					for (int k = 0; k < secondTagSize; k++) {
						if (xml_output.charAt(i) == secondTag.charAt(k)) {
							i++;

							if (k == secondTagSize - 1) {
								// .out.println("SecondTagRecognized");
								needChange = true;
							}// end inner if -secondTag
						} // end outer if -secondTag
						else {
							j = 0;
							break;
						}// end outer else
					}// end inner for
				}// end inner if-first Tag
			}// end outer if-first Tag
			if (needChange) {
				
				break;
			}// end if needChange
			else {
				
				 //j = 0;
				// insertposition = 0;
			}// else - reset
		}// end outer for
		// System.out.println(firstTag+" "+secondTag+" "+needChange);
		if (needChange) {
			System.out.println("true");
			System.out.println("Insertion:\n"+ insertion);
			System.out.println();
			System.out.println(firstTag);
			System.out.println(secondTag);
			System.out.println();
			String xml_start = xml_output.substring(0, insertposition + 1);
			String xml_end = xml_output.substring(insertposition + 1);
			String new_xml = xml_start + insertion + xml_end;
			return new_xml;
		} // end if examine Change
		else {
			System.out.println("false");
			return xml_output;
		} // end else

	}

	public static String insertMissingTags(String xml_output) {
		// no ccp
		String new_output1 = replaceTags(
				xml_output,
				"</cxn>",
				"<anc>",
				"\n<ccp>\n<cxtMember>\n<cxs>BUBUUU</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n");
		String new_output2 = replaceTags(
				new_output1,
				"</cxn>",
				"<chd>",
				"\n<ccp>\n<cxtMember>\n<cxs>BIBOOOOO</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n");
		String new_output3 = replaceTags(
				new_output2,
				"</cxn>",
				"<sib>",
				"\n<ccp>\n<cxtMember>\n<cxs>BOBOOOOOOOOO</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");
		String new_output4 = replaceTags(
				new_output3,
				"</cxn>",
				"</sourceCxt>",
				"\n<ccp>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd><sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");
		// no anc
		String new_output5 = replaceTags(
				new_output4,
				"</ccp>",
				"<chd>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>");
		System.out.println("hi");
		String new_output6 = replaceTags(
				new_output5,
				"</ccp>",
				"<sib>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");
		String new_output7 = replaceTags(
				new_output6,
				"</ccp>",
				"</sourceCxt>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");
		// no chd
		String new_output8 = replaceTags(
				new_output7,
				"</anc>",
				"<sib>",
				"\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");

		String new_output9 = replaceTags(
				new_output8,
				"</anc>",
				"</sourceCxt>",
				"\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");
		// no sib
		String result = replaceTags(
				new_output9,
				"</chd>",
				"</sourceCxt>",
				"\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");

		return result;
	}

	public static void main(String[] args) {
		// String xml_output = "schocki<anc>ölkök</anc>
		// <sib>jlk</sib>llllllllllllllllkkkkkkk";
		// System.out.println(insertMissingTags(xml_output));
		StringBuffer lesepuffer = new StringBuffer();
		String text = "";
		try {
			FileReader freader = new FileReader(
					"C:\\Dokumente und Einstellungen\\Daniel\\Desktop\\Arbeit\\AHA_TEST_WITHOUTCHILD.xml");

			BufferedReader in = new BufferedReader(freader);

			while ((text = in.readLine()) != null)
				lesepuffer.append(text + "\n");

			freader.close();
			text = new String(lesepuffer);

		} catch (Exception eve) {
		}
		System.out.println(text.length());
		String textx = insertMissingTags(text);
		System.out.println(textx);
		//XMLBaseGenerator objGenerator = new XMLBaseGenerator(textx, "ENG");
		//objGenerator.getConceptTerms(textx);
	}
}
```

In der main wird zum test eine XML file eingelesen.
Ich möchte dort wo tags Fehlen, die fehlenden Tags einfügen.
Das ganze sieht so aus. Ich habe dafür eine Methode:

public static String replaceTags(String xml_output, String firstTag,
			String secondTag, String insertion) 

Diese Methode prüft folgendes:
Wenn zwischen dem firstTag und dem secondTag nichts steht, dann wird ein String "insertion" eingefügt!
In meinem Testscenario fehlt das <chd> blabla </chd> tag. Dies muss zwischen </anc> und <sib> stehen. Also wenn man solch eine Stelle findet </anc> und <sib>, dann muss dort das <chd> Tag eingefügt werden. 
Das lustige ist jetzt, dass die richtige Stelle gefunden wird, aber etwas falsches eingefügt wird. Ich bin gerade etwas am durchdrehen, ich kann den bug einfach nicht finden.
Die XML mit der ich teste sieht wie folgend aus:

```
<?xml version="1.0" encoding="UTF-8"?>
<MetaCollection version="1.0">
  <release>2008AB</release>
  <concept>
    <cui>C0002458</cui>
    <cn>American Heart Association</cn>
    <term>
      <lui>L0002458</lui>
      <tn>American Heart Association</tn>
      <ts>P</ts>
      <lat>ENG</lat>
      <termVariant>
        <sui>S0012959</sui>
        <stt>PF</stt>
        <str>American Heart Association</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A0022536</aui>
            <tty>MH</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
          </srcinfo>
        </strSource>
      </termVariant>
      <termVariant>
        <sui>S0012960</sui>
        <stt>VO</stt>
        <str>American Heart Associations</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A0022537</aui>
            <tty>PM</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
          </srcinfo>
        </strSource>
      </termVariant>
      <termVariant>
        <sui>S0016406</sui>
        <stt>VW</stt>
        <str>Association, American Heart</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A0027278</aui>
            <tty>PM</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
          </srcinfo>
        </strSource>
      </termVariant>
      <termVariant>
        <sui>S0016418</sui>
        <stt>VO</stt>
        <str>Associations, American Heart</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A0027290</aui>
            <tty>PM</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
          </srcinfo>
        </strSource>
      </termVariant>
      <termVariant>
        <sui>S0047207</sui>
        <stt>VW</stt>
        <str>Heart Association, American</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A0066382</aui>
            <tty>PM</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
          </srcinfo>
        </strSource>
      </termVariant>
      <termVariant>
        <sui>S0047208</sui>
        <stt>VO</stt>
        <str>Heart Associations, American</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A0066383</aui>
            <tty>PM</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
          </srcinfo>
        </strSource>
      </termVariant>
    </term>
    <term>
      <lui>L6529810</lui>
      <tn>AMERICAN HEART ASSOC</tn>
      <ts>S</ts>
      <lat>ENG</lat>
      <termVariant>
        <sui>S7611515</sui>
        <stt>PF</stt>
        <str>AMERICAN HEART ASSOC</str>
        <strSource>
          <sab>MSH</sab>
          <scd>D000572</scd>
          <srl>0</srl>
          <srcinfo>
            <aui>A12068031</aui>
            <tty>DEV</tty>
            <scui>M0000892</scui>
            <sdui>D000572</sdui>
            <suppressible />
          </srcinfo>
        </strSource>
      </termVariant>
    </term>
    <definition>
      <sab>MSH</sab>
      <def>A voluntary organization concerned with the prevention and treatment of heart and vascular diseases.</def>
      <aui>A0022536</aui>
      <atui>AT38149476</atui>
    </definition>
    <semanticType>
      <tui>T093</tui>
      <sty>Health Care Related Organization</sty>
      <atui>AT17595867</atui>
    </semanticType>
    <context>
      <sui>S0012959</sui>
      <stringCxt>
        <sab>MSH</sab>
        <scd>D000572</scd>
        <aui>A0022536</aui>
        <sourceCxt>
          <cxn>1</cxn>
          <ccp>
            <cxtMember>
              <cxs>American Heart Association</cxs>
              <cui2>C0002458</cui2>
              <aui2>A0022536</aui2>
              <rank>0</rank>
              <hcd>N03.540.630.780.110</hcd>
              <rel />
              <xc />
            </cxtMember>
          </ccp>
          <anc>
            <cxtMember>
              <cxs>MeSH</cxs>
              <cui2>C1135584</cui2>
              <aui2>A0434168</aui2>
              <rank>1</rank>
              <hcd />
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>MeSH Descriptors</cxs>
              <cui2>C1256739</cui2>
              <aui2>A2367943</aui2>
              <rank>2</rank>
              <hcd />
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Index Medicus Descriptor</cxs>
              <cui2>C1256741</cui2>
              <aui2>A2366890</aui2>
              <rank>3</rank>
              <hcd />
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Health Care (MeSH Category)</cxs>
              <cui2>C0018689</cui2>
              <aui2>A0135434</aui2>
              <rank>4</rank>
              <hcd>N</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Health Care Economics and Organizations</cxs>
              <cui2>C0013562</cui2>
              <aui2>A0957609</aui2>
              <rank>5</rank>
              <hcd>N03</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Organizations</cxs>
              <cui2>C0029246</cui2>
              <aui2>A0095285</aui2>
              <rank>6</rank>
              <hcd>N03.540</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Organizations, Nonprofit</cxs>
              <cui2>C0029247</cui2>
              <aui2>A0095292</aui2>
              <rank>7</rank>
              <hcd>N03.540.630</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Voluntary Health Agencies</cxs>
              <cui2>C0042958</cui2>
              <aui2>A0133404</aui2>
              <rank>8</rank>
              <hcd>N03.540.630.780</hcd>
              <rel />
              <xc />
            </cxtMember>
          </anc>
          <sib>
            <cxtMember>
              <cxs>American Cancer Society</cxs>
              <cui2>C0002455</cui2>
              <aui2>A0022534</aui2>
              <rank>0</rank>
              <hcd>N03.540.630.780.080</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Mental Health Associations</cxs>
              <cui2>C0025354</cui2>
              <aui2>A0084858</aui2>
              <rank>0</rank>
              <hcd>N03.540.630.780.500</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Red Cross</cxs>
              <cui2>C0034907</cui2>
              <aui2>A0110262</aui2>
              <rank>0</rank>
              <hcd>N03.540.630.780.608</hcd>
              <rel />
              <xc />
            </cxtMember>
            <cxtMember>
              <cxs>Tuberculosis Societies</cxs>
              <cui2>C0041304</cui2>
              <aui2>A0129257</aui2>
              <rank>0</rank>
              <hcd>N03.540.630.780.850</hcd>
              <rel />
              <xc />
            </cxtMember>
          </sib>
        </sourceCxt>
      </stringCxt>
    </context>
  </concept>
</MetaCollection>
```

Ich bin mir jetzt nicht sicher, obs eventuell Probleme mit den Strings gibt. Den String insertion verwende ich zum Beispiel immer wieder. Wird beim Methoden aufruf ja immer wieder neu belegt. Kann soetwas zu Problemen führen? Ansonsten, falls irgend jemand bei meinem Algorithmus durchblicken sollte und irgendeine Ahnung hat wie die komischen Fehler zustande kommen wäre ich sehr dankbar für hinweise.


----------



## Don83 (8. Apr 2009)

Hallo,
ich wollte das Problem noch einmal Konkretisieren:
Ich habe den code mal mit ein paar print messages abgeändert:
[HIGHLIGHT="Java"]package rmi;

import java.io.BufferedReader;
import java.io.FileReader;

public class ReplaceTags2 {

	public static String replaceTags(String xml_output, String firstTag,
			String secondTag, String insertion) {
		System.out.println("enter Method");
		//System.out.println(insertion);
		int firstTagSize = firstTag.length(); // example:</anc> = 6
		int secondTagSize = secondTag.length(); // exmaple:<chd> =5

		int insertposition = 0; // position where to insert the tags
		boolean needChange = false; // determines if an insertion is needed

		int j = 0; // count parameter to determine the position of the firsTag

		for (int i = 0; i < xml_output.length(); i++) {

			if (xml_output.charAt(i) == firstTag.charAt(j)) {
				System.out.println(firstTag.charAt(j));
				j++;

				if (j == firstTagSize) {
					System.out.println("First tag recognized");
					insertposition = i;

					// ignore whitespaces between
					// tags-example:</anc>[whitepsaces]<sib>
					while ((xml_output.charAt(i + 1) == ' ')
							|| (xml_output.charAt(i + 1) == '\n')) {
							//System.out.println(xml_output.charAt(i+1));
						i++;

					} // end while
					i++;
					// Test for second tag
					for (int k = 0; k < secondTagSize; k++) {
						if (xml_output.charAt(i) == secondTag.charAt(k)) {
							i++;

							if (k == secondTagSize - 1) {
								// .out.println("SecondTagRecognized");
								needChange = true;
							}// end inner if -secondTag
						} // end outer if -secondTag
						else {
							j = 0;
							break;
						}// end outer else
					}// end inner for
				}// end inner if-first Tag
			}// end outer if-first Tag
			if (needChange) {

				break;
			}// end if needChange
			else {

				 //j = 0;
				// insertposition = 0;
			}// else - reset
		}// end outer for
		// System.out.println(firstTag+" "+secondTag+" "+needChange);
		if (needChange) {
			System.out.println("true");
			System.out.println("Insertion:\n"+ insertion);
			System.out.println();
			System.out.println(firstTag);
			System.out.println(secondTag);
			System.out.println();
			String xml_start = xml_output.substring(0, insertposition + 1);
			String xml_end = xml_output.substring(insertposition + 1);
			String new_xml = xml_start + insertion + xml_end;
			return new_xml;
		} // end if examine Change
		else {
			System.out.println("false");
			return xml_output;
		} // end else

	}

	public static String insertMissingTags(String xml_output) {
		// no ccp
		String new_output1 = replaceTags(
				xml_output,
				"</cxn>",
				"<anc>",
				"\n<ccp>\n<cxtMember>\n<cxs>BUBUUU</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n");
		String new_output2 = replaceTags(
				new_output1,
				"</cxn>",
				"<chd>",
				"\n<ccp>\n<cxtMember>\n<cxs>BIBOOOOO</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n");
		String new_output3 = replaceTags(
				new_output2,
				"</cxn>",
				"<sib>",
				"\n<ccp>\n<cxtMember>\n<cxs>BOBOOOOOOOOO</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");
		String new_output4 = replaceTags(
				new_output3,
				"</cxn>",
				"</sourceCxt>",
				"\n<ccp>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd><sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");
		// no anc
		String new_output5 = replaceTags(
				new_output4,
				"</ccp>",
				"<chd>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>");
		System.out.println("hi");
		String new_output6 = replaceTags(
				new_output5,
				"</ccp>",
				"<sib>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");
		String new_output7 = replaceTags(
				new_output6,
				"</ccp>",
				"</sourceCxt>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");
		// no chd
		String new_output8 = replaceTags(
				new_output7,
				"</anc>",
				"<sib>",
				"\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");

		String new_output9 = replaceTags(
				new_output8,
				"</anc>",
				"</sourceCxt>",
				"\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");
		// no sib
		String result = replaceTags(
				new_output9,
				"</chd>",
				"</sourceCxt>",
				"\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");

		return result;
	}

	public static void main(String[] args) {
		// String xml_output = "schocki<anc>ölkök</anc>
		// <sib>jlk</sib>llllllllllllllllkkkkkkk";
		// System.out.println(insertMissingTags(xml_output));
		StringBuffer lesepuffer = new StringBuffer();
		String text = "";
		try {
			FileReader freader = new FileReader(
					"C:\\Dokumente und Einstellungen\\Daniel\\Desktop\\Arbeit\\AHA_TEST_WITHOUTCHILD.xml");

			BufferedReader in = new BufferedReader(freader);

			while ((text = in.readLine()) != null)
				lesepuffer.append(text + "\n");

			freader.close();
			text = new String(lesepuffer);

		} catch (Exception eve) {
		}
		System.out.println(text.length());
		String textx = insertMissingTags(text);
		System.out.println(textx);
		//XMLBaseGenerator objGenerator = new XMLBaseGenerator(textx, "ENG");
		//objGenerator.getConceptTerms(textx);
	}
}[/HIGHLIGHT]

Ich bekomme hier Ausgaben der folgenden Art:

```
<
/
c
x
n
>
First tag recognized
<
/
c
x
n
>
First tag recognized
<
/
c
x
n
>
usw.
```
Das schöne ist: Das Programm erkennt das erste Tag. Das unschöne:
Das tag wird öfters erkannt.... im Text selber ist es aber nur einmal vorhanden?! Wie kann das denn sein?


----------



## 0x7F800000 (8. Apr 2009)

omg...
Bist du dir sicher, dass du keinerlei möglichkeiten hast, xml als xml und nicht als text zu behandeln? Läuft denn wirklich NIX von den ganzen (evtl älteren) xsl-transformatoren unter 1.3? Kannst du das nicht über irgendein externes xslt-programm machen? Hast du schon versucht, die neueren pakete einfach als jar's rüberzukopieren in cp hinzuzufügen und ganz normal zu benutzen? Vielleicht läuft ja doch was unter 1.3 ???:L ...

Das regex-basierte replaceAll auf zeichenebene nachzuimplementieren wäre ein extremer Krampf


----------



## Don83 (8. Apr 2009)

Naja ich benötige ja keine regEx. Die einzigen RegEx die ich benötige sind denke ich mal Leerzeichen und new line zeichen. Ich will replace all ja nicht 1:1 übernehmen, ich will lediglich fehlende Tags in die XML einfügen .
Gibt halt die folgenden Tags:
<ccp>inhalt</ccp>
<anc>inhalt</anc>
<chd>inhalt</chd>
<sib>inhalt</sib>
Wenn eines der Tags fehlt gibts einen error. Ist eine alte Diplomarbeit die ich gerade debugge.

edit:
Im endeffekt will ich einfach nur folgendes nachbilden:

```
public static String insertMissingTags(String xml_output){
		//no ccp
		String new_output1= xml_output.replaceAll("</cxn>\\s*<anc>", "</cxn>\n<ccp>\n</ccp>\n<anc>");
		String new_output2= new_output1.replaceAll("</cxn>\\s*<chd>", "</cxn>\n<ccp>\n</ccp>\n<anc>\n</anc>\n<chd>");
		String new_output3= new_output2.replaceAll("</cxn>\\s*<sib>", "</cxn>\n<ccp>\n</ccp>\n<anc>\n</anc>\n<chd>\n<sib>");
		String new_output4= new_output3.replaceAll("</cxn>\\s*</sourceCxt>", "</cxn>\n<ccp>\n</ccp>\n<anc>\n</anc>\n<chd>\n<sib>\n</sib>\n</sourceCxt>");
		//no anc
		String new_output5= new_output4.replaceAll("</ccp>\\s*<chd>", "</ccp>\n<anc>\n</anc>\n<chd>");
		String new_output6= new_output5.replaceAll("</ccp>\\s*<sib>", "</ccp>\n<anc>\n</anc>\n<chd>\n</chd>\n<sib>");
		String new_output7= new_output6.replaceAll("</ccp>\\s*</sourceCxt>", "</ccp>\n<anc>\n</anc>\n<chd>\n</chd>\n<sib>\n</sib>\n</sourceCxt>");
		//no chd
		String new_output8= new_output7.replaceAll("</anc>\\s*<sib>", "</anc>\n<chd>\n</chd>\n<sib>");
		String new_output9= new_output8.replaceAll("</anc>\\s*</sourceCxt>", "</anc>\n<chd>\n</chd>\n<sib>\n</sib>\n</sourceCxt>");
		//no sib
		String new_output10= new_output9.replaceAll("</chd>\\s*</sourceCxt>", "</chd>\n<sib>\n</sib>\n</sourceCxt>");
		System.out.println("hi");
		return new_output10;
	}
```
Aber kann leider nur version 1.3.1 verwenden.


----------



## 0x7F800000 (8. Apr 2009)

Don83 hat gesagt.:


> Naja ich benötige ja keine regEx. Die einzigen RegEx die ich benötige sind denke ich mal Leerzeichen und new line zeichen.


nja, gut, wäre wohl noch zu schaffen^^ 
Dann hast du aber ein unnötig abschreckendes codestück ausgesucht, wenn du das an einem zehnzeiler demonstriert hättest, wäre die schwelle, deinen code um 2 Uhr nachts zu lesen vielleicht nicht so hoch 



> Wenn eines der Tags fehlt gibts einen error. Ist eine alte Diplomarbeit die ich gerade debugge.


sind das irgendwelche ausgaben in xml form, die dauernd in ein neueres Format übersetzt werden sollen? Oder ist es lediglich ein haufen xml-dateien, die du einmalig abändern willst? 



> Im endeffekt will ich einfach nur folgendes nachbilden:


Nja, in xslt wären's nicht mal 1/10 so viele Zeilen, und da würde mit höherer wahrscheinlichkeit valides xml rauskommen^^

=> Könntest du bitte nochmal erzählen, was du global vorhast? Nicht dass du hier ein Nagel mit einer Kaffetasse in die Wand hauen willst, und ich dir hier irgendwas von Kaffetassen aus Titan erzähle


----------



## Don83 (8. Apr 2009)

Ok, 
also konkret:
Es gibt einen server, wenn ich an diesen eine Anfrage stelle schickt mir der server XML zurück.
In einer Diplomarbeit wurde dort verschiedenes Zeug rausgeparsed. Die Diplomarbeit ist aber ziemlich, naja, ich sag mal... Mängel behaftet.
Damit des Parsing dort funktioniert muss man die XML ausgaben vorverarbeiten. 
Es werden ALLE 4 verwandschaftstags benötigt.
Das sind <ccp><anc><chd> und <sib>. Auch immer in der genannten Reihenfolge.
Meine Idee wars jetzt halt... wenn zum Beispiel <chd> fehlt.
Dann gibts ja folgende Situation.
Textblabla</anc>leeeeeeeeerzeichen<sib>Textblaaaaa
Wenn also </anc>leeeeeeeeeerzeichen<sib> erkannt wird, dann weis man... AHA! <chd> fehlt. Und dann wird eben <chd>leerer Inhalt</chd> eingefügt. 
So hatte ich mir das zumindest vorgestellt.;(
Bei kurzen Teststrings klappt das schon. Aber bei der ganzen XML irgendwie noch nicht. :/....


----------



## 0x7F800000 (8. Apr 2009)

Don83 hat gesagt.:


> Bei kurzen Teststrings klappt das schon. Aber bei der ganzen XML irgendwie noch nicht. :/....


hmm, oookay, jetzt ist's klar...

externen XSL-Trafo vorschalten willst du nach wie vor nicht? 
Wäre wohl schöner. Aber da ich selbst nicht so viel erzählen kann, will ich dich auch nicht auf ungewohntes gelände drängen^^ 

ich glaube es wäre aber immer noch leichter, einen eigenen kleinen xml-parser zu basteln (xml ist ja grad so ausgedacht worden, dass es leicht ist), einen baum zu basteln, den entsprechenden knoten zu finden, und die fehlende knoten hinzuzufügen... Imho einfacher als Zeichenkettenmanipulationen.. 

Eine Frage: können die betroffenen tags verschachtelt werden? Wenn ja, dann wird's mit nem eigenbau-parser wirklich einfacher...


----------



## Don83 (8. Apr 2009)

Also die tags können nicht verschachtelt werden und kommen auch immer in der selben reihenfolge. Hm, einen eigenen XML parser bauen wäre natürlich auch eine idee, wobei ich schon ungerne aufgebe . Also würde beimeiner idee gern noch ein wenig weiter probieren. Die bugs sind nur momentan so zum heulen .


----------



## Don83 (8. Apr 2009)

Wollte nur bescheid geben, dass ichs nun hinbekommen habe .
Schlaf ist überbewertet . Jetzt muss ich aber ins Bett, morgen um 9 Uhr muss wieder raus ;(.
Falls interesse am Algorithmus besteht kann ich die Methoden gern nochmal posten, aber bin grad zu müde. -tod umfall-


----------



## faetzminator (8. Apr 2009)

Don83 hat gesagt.:


> ... Und dann wird eben <chd>leerer Inhalt</chd> eingefügt.


Willst du uns damit sagen, dass dieser Service nicht einmal <chd/> versteht  ?


----------



## Ebenius (8. Apr 2009)

0x7F800000 hat gesagt.:


> externen XSL-Trafo vorschalten willst du nach wie vor nicht?


Man sollte in diesem Kontext nochmal auf das Vorgängerthema verweisen: [thread=81483]replaceAll => no such java.lang.NoSuchMethodError[/thread]. Der Code läuft -- soweit ich das verstanden habe -- auf einem Oracle Datenbankserver. Ich verstehe, dass man da nicht irgendwelche zusätzlichen JARs installieren will, wenn der Server nicht unter der eigenen Kontrolle steht.

Und mit XML-Processing in Java 1.3 mit Boardmitteln wird nix: Java 2 Platform SE v1.3.1

Ebenius


----------



## Don83 (8. Apr 2009)

Ja genau.
Vorm einbinden habe ich auch ein wenig Angst. Vorallem, da ich nur alle 3 Wochen am lifetool rumspielen kann(für wenige Stunden) und mich dort auch nicht so wirklich in der Architektur auskenne. Hatte von Paketen gelesen, die RegEx auch unter 1.3. nachbilden  (ORO?) aber war mir etwas zu spannend. Ich habe mich nur beim implementieren meiner eigenen "replaceAll" Methode ein wenig blöd angestellt.
Hier ist mal das Ergebnis. Funktioniert nun einwandfrei. Ob das ganze dann am lifetool funktioniert ist die andere Frage. ;( Langsam werd ich zum Pessimist.

```
public static String replaceTags(String xml_output, String firstTag,
			String secondTag, String insertion) {
		System.out.println("enter Method");
		// System.out.println(insertion);
		int firstTagSize = firstTag.length(); // example:</anc> = 6
		int secondTagSize = secondTag.length(); // exmaple:<chd> =5

		int insertposition = 0; // position where to insert the tags
		boolean needChange = false; // determines if an insertion is needed

		for (int i = 0; i < xml_output.length(); i++) {
			for (int j = 0; j < firstTagSize; j++) {

				// System.out.println(xml_output.charAt(i)+" "+i+"
				// "+firstTag.charAt(j) + " "+j);
				if (!(xml_output.charAt(i) == firstTag.charAt(j))) {
					break;
				}

				if ((xml_output.charAt(i) == firstTag.charAt(j))
						&& (j == firstTagSize - 1)) {
					insertposition = i;
					System.out.println("gefunden");
					while (!(xml_output.charAt(i) == '<')) {
						i++;
						System.out.println("hi");
					}

					// Ab hier zweiter tag
					int c = i;
					while (c < 50 + i) {
						System.out.println(xml_output.charAt(c));
						c++;
					}

					for (int k = 0; k < secondTagSize; k++) {
						System.out.println(xml_output.charAt(i) + " " + i + " "
								+ secondTag.charAt(k) + " " + k);

						if (!(xml_output.charAt(i) == secondTag.charAt(k))) {
							break;
						}
						if ((xml_output.charAt(i) == secondTag.charAt(k))
								&& (k == secondTagSize - 1)) {
							needChange = true;
						}
						i++;
					}

				}

				i++;
			}
		}
		System.out.println(firstTag + " " + secondTag + " " + needChange);
		if (needChange) {
			System.out.println("true");
			System.out.println("Insertion:\n" + insertion);
			System.out.println();
			System.out.println(firstTag);
			System.out.println(secondTag);
			System.out.println();
			String xml_start = xml_output.substring(0, insertposition + 1);
			String xml_end = xml_output.substring(insertposition + 1);
			String new_xml = xml_start + insertion + xml_end;
			return new_xml;
		} // end if
		else {
			System.out.println("false");
			return xml_output;
		} // end else

	}

	public static String insertMissingTags(String xml_output) {
		// no ccp

		String new_output1 = replaceTags(
				xml_output,
				"</cxn>",
				"<anc>",
				"\n<ccp>\n<cxtMember>\n<cxs>BUBUUU</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n");
		String new_output2 = replaceTags(
				new_output1,
				"</cxn>",
				"<chd>",
				"\n<ccp>\n<cxtMember>\n<cxs>BIBOOOOO</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n");
		String new_output3 = replaceTags(
				new_output2,
				"</cxn>",
				"<sib>",
				"\n<ccp>\n<cxtMember>\n<cxs>BOBOOOOOOOOO</cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");
		String new_output4 = replaceTags(
				new_output3,
				"</cxn>",
				"</sourceCxt>",
				"\n<ccp>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</ccp>\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd><sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n"); //
		// no anc
		String new_output5 = replaceTags(
				new_output4,
				"</ccp>",
				"<chd>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>");
		System.out.println("hi");
		String new_output6 = replaceTags(
				new_output5,
				"</ccp>",
				"<sib>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");
		String new_output7 = replaceTags(
				new_output6,
				"</ccp>",
				"</sourceCxt>",
				"\n<anc>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</anc>\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n"); //
		// no chd
		String new_output8 = replaceTags(
				new_output7,
				"</anc>",
				"<sib>",
				"\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n");

		String new_output9 = replaceTags(
				new_output8,
				"</anc>",
				"</sourceCxt>",
				"\n<chd>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</chd>\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n"); //
		// no sib
		String result = replaceTags(
				new_output9,
				"</chd>",
				"</sourceCxt>",
				"\n<sib>\n<cxtMember>\n<cxs></cxs>\n<cui2></cui2>\n<aui2></aui2>\n<rank>1</rank>\n<hcd /><rel /><xc /></cxtMember>\n</sib>\n");

		return result;
	}
```


----------

