# Byte-Array to String: Zeichenkaputt



## Enkodierer (19. Dez 2011)

Hi,

ich habe hier ein Byte-Array in dem ein String drinsteht, der u.U. japanische oder chinesesiche Zeichen beinhalten kann. 

Ich möchte natürlich, dass am Ende mein String die fremden Symbole richtig anzeigt, nur gelingt mir das nicth so wirklich.

Mein Versuch war:


```
ByteArrayInputStream in = new ByteArrayInputStream(buffer);
				DataInputStream readIn = new DataInputStream(in);
				while (readIn.available() > 20) {
					int size = readIn.readInt();
					byte[] id = new byte[size];
					readIn.read(id);
					String idsString = new String(id, "UTF-8"); //<-- UTF-8 hilft leider nicht
```

Ich hab im Debug nachgesehen und es sind genau so viele Bytes wie vor der Überführung in den Byte-Strom, ich kann daher ausschließen, dass Zeichen verloren gehen. Wie krieg ich Java dazu, meinen String wieder mit auslädnischen Zeichen anzuzeigen?


----------



## SlaterB (19. Dez 2011)

wie stellst du denn fest ob etwas falsch oder richtig war?
Ausgabe auf einer vielleicht begrenzten Konsole oder GUI?
welches Beispiel geht konkret schief, was ist der Fehler, was wäre das richtige Ziel?

falls später wieder bytes benötigt werden, ist dann auch die String-Zwischenstufe zwingend?


----------



## LoR (19. Dez 2011)

UTF 16.


----------



## Enkodierer (19. Dez 2011)

Hi,

ich gehe nach dem was ich sehe. Bevor ich das in die Bytes überführe wird es dargestellt, nach dem rücküberführen aus dem Bytes in den String ist es nur noch ein fragezeichen.
Die Anzahl der Bytes und deren Zahlenwert ist erhalten geblieben, von daher dachte ich jetzt es muss ein Zeichensatzproblem sein?

Der String wird auf einer SWT-GUI angezeigt, macht das einen Unterschied?


----------



## Enkodierer (19. Dez 2011)

UTF-16 habe ich probiert.

Mein String ist ein Mischling aus normalen europäischen Zeichen wo chinesische Zeichen einzeln vorkommen können. Mit UTF-16 wird alles als chinesischer Zeichen-Mischmasch dargestellt (und das Zeichen um das es mir konkret geht sieht auch gänzlich anders aus)


----------



## SlaterB (19. Dez 2011)

> Bevor ich das in die Bytes überführe wird es dargestellt, nach dem rücküberführen aus dem Bytes in den String ist es nur noch ein fragezeichen.

das ist noch relativ unscharf, verschiedene PCs, GUI, Konsole, andere Progamme komplett Java-fern, ..?
falls in beiden Fällen Java-Strings beteiligt sind, gib die chars als Zahlenwerte aus, wo sind konkrete Unterschiede,
beschränke die Übertragung vielleicht auf ein gefährliches Zeichen, welche Byte-Werte gibt es an an Stellen usw.,

außer solche Allgemeinhinweise kann ich leider gerade nichts bestimmtes beitragen


----------



## Enkodierer (19. Dez 2011)

Hi,

also ich habe hier einen SWT-Transfer Handel, der mir eine ganze Sammlung von Strings, mit anderen Werten, ins clipboard legt und von da wieder abholt und zurück verwandelt.

Ich hab also reines? Java und arbeite auf OS-X.

>gib die chars als Zahlenwerte aus,
Also die Zahlenwerte des Bytestrom sind identisch, es handelt sich augenscheinlich um die Selbe Information, oder was meinst du genau?


----------



## SlaterB (19. Dez 2011)

es ist wirklich schwer irgendwas zu erkennen wenn du mal von ungeklärten Ausgaben zu unbekannten Zeitpunkten unbekannter Strings oder was auch immer auf unbekannten Medien sprichst,
und nun einfach von 'die Zahlenwerte des Bytestrom sind identisch', was für Ströme sind das?
jeweils vor der Umwandlung in String vor beiden Ausgaben? das muss nicht viel heißen wenn eben genau die Umwandlung das Problem sein sollte,
die Strings selber anzuschauen könnte Unterschiede zeigen, eben etwas genauer die einzelnen chars in den Strings,

aber vorher wäre wohl wirklich ein Gesamtablauf interessant,
welche Planeten, welche Länder, welche Städte, welche Computer, welche Betriebssysteme, welche Programme sind beteiligt,
wie genau entsteht irgendwo jemals ein erster String x, kommt er aus einer Datei?
was passiert mit dem genau, wann wird er wie wo warum ein zweites Mal genutzt, was passiert dazwischen, was IST dazwischen,
Socket-Übertragung, erneutes Datei-Einlesen oder nur innerhalb eines Programms byte[] aus String gemacht usw. usf.,
tausende Details könnten relevant sein,

allerdings Warnung:
es könnte sein dass ich außer solchen allgemeinen Hinweisen letztlich gar nichts dann zur Sache sagen kann,
wenn ich nur nerve einfach ignorieren


----------



## Murray (19. Dez 2011)

Wenn (Unicode-)Strings in ein Byte-Array umgewandelt werden, dann wird dabei immer ein Encoding verwendet (z.B. UTF-8 oder UTF-16). Wenn man aus dem Byte-Array dann wieder einen String machen will, dann muss man dabei exakt das Encoding angebenen, welches auch "auf dem Hinweg" verwendet wurde.
Hast Du den Code unter Kontrolle, in dem der String in das Byte-Array umgewandelt wird? Kannst Du die Stelle posten?


----------



## Enkodierer (20. Dez 2011)

Hi,

ja den Transferhandle habe ich selbst geschrieben. Es sind normale Java-Strings die ich einlese, ich denke da ist der Defaultzeichensatz gesetzt, welcher ist das? UTF-8?

Muss ich hier das Encoding abfragen und mit den Byte-Strom schreibenß


```
ByteArrayOutputStream out = new ByteArrayOutputStream();
			DataOutputStream writeOut = new DataOutputStream(out);

			String idsString="";
			for (int i = 0; i < myType.ids.length; i++){ // hier weden meine strings zu einem string gemacht
				idsString += myType.ids[i];
				if (i+1 < myType.ids.length){
					idsString += "\n";
				}
			}
			
			byte[] buffer = idsString.getBytes(); 
			writeOut.writeInt(buffer.length);
			writeOut.write(buffer);
			// }
			byte[] outBuffer = out.toByteArray();
			writeOut.close();
			super.javaToNative(outBuffer, transferData);
```


----------



## Murray (20. Dez 2011)

In Zeile 12 wandelst Du den String in ein Byte-Array um; dabei wird das Plattform-Default-Encoding verwendet. Gib hier doch mal explizit "utf-16" als zweiten Parameter an und ändere das Encoding auch beim Lesen entsprechend.


----------



## Enkodierer (20. Dez 2011)

Danke, das hat geholfen, damit geht es.


----------

