Probleme bei der decodierung von texten

Didi · 12. Nov 2004

hallo

habe folgendes problem:

und zwar soll ich ein programm schreiben um 2 textdateien miteinander vergleichen zu können.
da sich jedoch der quellcode von den dateien je nach verwendetem zeichensatz (ascii, utf-8, iso-8859-1) unterscheidet, es aber ja nur auf den eigentlichen inhalt der dateien ankommt muß ich diese nun in einen einheitlichen zeichensatz decodieren. das decodieren selbst klappt nur tritt folgendes problem auf:

beim decodieren mittels eines Chardecoders mit Charset("UTF-8) macht er folgendes

die beiden uncodierten strings gibt er mir so aus:
ascii: test
utf-8: ï»¿test

die decodierten dann so:
ascii: test
utf-8: ?test

woran liegt es dass er das fragezeichen so decodiert?

in der textdatei steht einfach nur drin: test

da fällt mir grade nochwas ein:
wie sehen die ersten bytes von textdateien aus?
also wo finde ich bzw wie greife ich auf die informationen zu welcher zeichensatz zugrunde liegt.

mfg

Matthias

mr1st · 12. Nov 2004

Bei UTF-8 Dateien geben normalerweise die ersten beiden Bytes die Länge der Datei an.

Fragezeichen entstehen meist bei unbekannten Zeichen bzw bei solchen Zeichen, die die aktuelle Schriftart nicht darstellen kann.

Möglicherweise herrscht eine Inkompatibilität, da Java ein modified-UTF Format verwendet.

MfG

Didi · 15. Nov 2004

ah...
und wie kann ich herausfinden mit welchem satz eine text datei kodiert ist?!?

Das ist momentan mein Hauptproblem

mr1st · 15. Nov 2004

Wie genau willst Du diese Dateien eigentlich vergleichen? Willst Du einfach wissen, ob sie a) völlig identisch sind, oder b) möchtest Du irgendwas mit deren Inhalt auch noch anfangen?

Fall a):
Du kannst hier die Dateien beide Byteweise einlesen, damit umgehst Du sämtliche Codierungsprobleme, und die resultierenden Byte-Arrays vergleichst Du miteinander.

Fall b):
Da kann ich Dir leider nicht helfen. Ich hab meine Java+UTF Versuche bereits aufgegeben.

MfG

Edit: Formulierungsfehler & Rechtschreibfehler entfernt.

Bleiglanz · 16. Nov 2004

und wie kann ich herausfinden mit welchem satz eine text datei kodiert ist?!?

gar nicht! vielleicht gibts ja irgendwo eine java lib mit heuristischen Methoden, die aus dem binärstrom erraten können, welches Encoding verwendet wurde (mein Unix "file" Befehl kann das dank /usr/share/misc/magic)

Ausnahme ist nur xml, weil da am anfang immer
<?xml steht, und man aus den hierfür verwendeten bytes immer das encoding ermitteln kann...

Didi · 17. Nov 2004

so...also ich hab mir mal verschiedene dateien mit gleichem inhalt , aber anderem encoding erzeugt, diese byte weise eingelesen und wieder ausgeben lassen
Hier mal meine Ausgabe:

Code:

Ascii          UTF8        	UTF-16	
                239           255	
                187           254	
                191		

65             65              65	
                                0	

66             66              66	
                                0	

167           194             167	
              167               0	

180           194             180	
              180               0	
   
178           194             178	
              178               0	

              226		
              130             172	
128           172              32	

              194             181	
181           181               0

Hier sieht man recht gut wie die verschiedenen Encodierungen aufgebaut sind
Ascii nur 1-byte Darstellung
UTF-8 1-3-byte Darstellung
UTF-16 2-byte Darstellung

Bin mir nun nicht sicher ob diese ersten 3 bytes jeweils spezifisch für UTF-8 bzw UTF-16 Encoding sind

Problem bei dem Identifizieren des Codes ist folgender:

Code:

                            226		
              130           172	
128           172            32

Wie hier zu sehen die verschiedenen Darstellungen ein und desselben Zeichens
Es wäre allerdings doch auch möglich diese 2. Zeichenfolge 226, 130, 172 als einzelne Zeichen zu identifizieren und nicht als ein zusammenhängendes Zeichen.

Jmd ne Ahnung wie ich das angehen könnte?

	Titel	Forum	Antworten	Datum
C	Probleme beim Erstellen eines runnable-jar files	Allgemeine Java-Themen	1	22. Feb 2023
S	Umstellung von File auf Path - Probleme mit Stream	Allgemeine Java-Themen	5	16. Dez 2022
C	Probleme mit javax.mail.Session	Allgemeine Java-Themen	8	14. Nov 2022
M	tomcat probleme	Allgemeine Java-Themen	1	18. Okt 2022
N	Division macht Probleme	Allgemeine Java-Themen	14	18. Aug 2022
B	Java Reflection Probleme beim wehcselseitigen Referenzieren zweier Klassen/Objekte	Allgemeine Java-Themen	14	23. Jul 2022
	Probleme mit relativem Dateipfad	Allgemeine Java-Themen	1	6. Jul 2022
G	Geotools Probleme nach PC-Wechsel	Allgemeine Java-Themen	6	25. Apr 2022
	GUI Probleme	Allgemeine Java-Themen	16	26. Mrz 2022
C	Probleme mit dem WindowBuilder	Allgemeine Java-Themen	3	21. Mrz 2022
P	Selenium . Probleme ein Iron Icon Element anzusprechen	Allgemeine Java-Themen	2	24. Feb 2022
B	Compiler-Fehler Probleme beim Kompilieren mit Jsoup	Allgemeine Java-Themen	8	5. Nov 2021
K	VisualVM Profiling Remote Probleme	Allgemeine Java-Themen	1	13. Jan 2021
O	Leerzeichen und Umlaute im Pfad einer Java Applikation machen Probleme	Allgemeine Java-Themen	13	10. Nov 2020
M	Probleme bei Eclipse wenn ich entpacke	Allgemeine Java-Themen	15	31. Okt 2020
D	Regex Probleme	Allgemeine Java-Themen	2	26. Feb 2020
M	Probleme jar datei.	Allgemeine Java-Themen	2	16. Feb 2020
L	Vererbung Verständnis Probleme Vererbung	Allgemeine Java-Themen	2	12. Feb 2020
	Probleme mit OpenAL	Allgemeine Java-Themen	0	31. Jan 2020
V	Threads Probleme beim Aufrufen von Methoden einer anderen Klasse (Threads)	Allgemeine Java-Themen	14	6. Jan 2020
V	Compiler-Fehler Online Compiler Probleme	Allgemeine Java-Themen	4	1. Dez 2019
M	Probleme mit Negamax-Algorithmus	Allgemeine Java-Themen	29	6. Apr 2019
M	Probleme mit BigDecimal	Allgemeine Java-Themen	1	25. Mrz 2019
T	Probleme mit NumberFormat	Allgemeine Java-Themen	5	22. Jan 2019
J	Probleme exe-Start mit Task Scheduler	Allgemeine Java-Themen	1	18. Jan 2019
B	Input/Output Probleme beim Ausführen von Shell-Befehlen mit Java	Allgemeine Java-Themen	28	5. Jan 2019
J	Probleme beim einbinden von Zip4j library	Allgemeine Java-Themen	6	30. Dez 2018
F	Variablen Palindromzahl (Probleme mit Methode)	Allgemeine Java-Themen	9	6. Nov 2018
K	Data Konverter - Probleme mit Byte[] Kodierung	Allgemeine Java-Themen	3	5. Nov 2018
T	Probleme mit dem Pfad zum Propertie file	Allgemeine Java-Themen	7	21. Sep 2018
H	Swing HashMap zu Tabelle macht mir Probleme	Allgemeine Java-Themen	4	16. Jul 2018
	Interpreter-Fehler Probleme mit Arrays.toString	Allgemeine Java-Themen	7	29. Mai 2018
F	SQLite mit Java / Probleme beim INSERT Befehl	Allgemeine Java-Themen	4	6. Apr 2018
J	Erste Schritte Probleme mit der Hauptklasse	Allgemeine Java-Themen	14	5. Apr 2018
J	Tetris Probleme bei Klassen	Allgemeine Java-Themen	14	21. Mrz 2018
J	MinMax VierGewinnt Probleme	Allgemeine Java-Themen	22	16. Mrz 2018
J	Probleme mit CodeCoverage und Lombok Equals	Allgemeine Java-Themen	1	14. Mrz 2018
S	Eclipse Probleme beim Implementieren / Ausführen von jUnit 5-Test Suites	Allgemeine Java-Themen	14	6. Mrz 2018
R	Snake Probleme	Allgemeine Java-Themen	2	21. Feb 2018
A	Probleme beim Verstehen einer Aufgabenstellung	Allgemeine Java-Themen	11	3. Dez 2017
	3D Objekt Translation basierend auf Rotation (Probleme mit Z Rotation)	Allgemeine Java-Themen	0	24. Nov 2017
	Druck Probleme mit PDF dateien	Allgemeine Java-Themen	4	21. Nov 2017
G	Ant Probleme bei einer Installation die Apache ant+ivy verwendet	Allgemeine Java-Themen	14	6. Apr 2017
E	TableView Probleme	Allgemeine Java-Themen	7	1. Apr 2017
	Probleme beim Mocken	Allgemeine Java-Themen	6	20. Mrz 2017
S	Kaffemaschine Programmierung Probleme	Allgemeine Java-Themen	2	5. Jan 2017
K	Threads Runtime und Process Probleme	Allgemeine Java-Themen	3	9. Dez 2016
S	Probleme mit unterschiedlichen Java-Versionen (Mac OS X 10.11)	Allgemeine Java-Themen	0	3. Dez 2016
S	Event Handling keyPressed()-Probleme	Allgemeine Java-Themen	2	10. Jul 2016
	Große und seltsame Probleme nach Java-Update auf V1.8.0_91	Allgemeine Java-Themen	3	20. Apr 2016
P	Probleme mit Grafik (Java)	Allgemeine Java-Themen	6	20. Apr 2016
R	probleme beim starten von jar unter linux	Allgemeine Java-Themen	2	11. Apr 2016
H	Probleme mit DAY_OF_WEEK	Allgemeine Java-Themen	4	26. Mrz 2016
	Probleme mit NullPointerException	Allgemeine Java-Themen	2	20. Mrz 2016
E	Probleme mit nextInt() und Exception	Allgemeine Java-Themen	35	16. Feb 2016
	Probleme mit AWT-EventQueue: ArrayList Elemente hinzufügen	Allgemeine Java-Themen	1	30. Jan 2016
D	Performance-Probleme mit Joda-Time	Allgemeine Java-Themen	3	29. Dez 2015
M	Probleme beim rechnen, bei Zahlen mit führenden Nullen.	Allgemeine Java-Themen	7	8. Okt 2015
	Probleme mit Encrypting	Allgemeine Java-Themen	10	30. Aug 2015
M	Probleme mit Schriftarten PDFBox	Allgemeine Java-Themen	3	10. Aug 2015
J	Probleme mit der Java-Runtime	Allgemeine Java-Themen	10	10. Jun 2015
G	Probleme mit BufferedWriter und URL	Allgemeine Java-Themen	4	24. Mai 2015
S	Probleme mit meinem MacBook Pro DRINGEND HILFE erbeten!	Allgemeine Java-Themen	17	12. Apr 2015
	Interpreter-Fehler Probleme mit Rekursion - StackOverflowError	Allgemeine Java-Themen	8	11. Mrz 2015
E	JCuda-0.6.5 Probleme beim ausführen der Datei	Allgemeine Java-Themen	0	1. Mrz 2015
M	Runtime.exec() verursacht auf manchen Systemen Probleme - Ursache unklar	Allgemeine Java-Themen	2	7. Feb 2015
W	JNDI - LDAP - Probleme beim editieren von Usern	Allgemeine Java-Themen	0	21. Jan 2015
R	DBUnit Performance Probleme	Allgemeine Java-Themen	0	21. Jan 2015
S	Probleme mit Collection	Allgemeine Java-Themen	7	11. Jan 2015
L	Probleme mit Jar	Allgemeine Java-Themen	6	15. Dez 2014
N	Zahlensysteme umrechnen; Probleme beim Umwandeln	Allgemeine Java-Themen	4	7. Dez 2014
K	OOP OOP Gui Spiel + Vererbungen Probleme durch Nichtwissen!!	Allgemeine Java-Themen	1	26. Nov 2014
F	Java Native/Shared Library (.so) laden macht Probleme	Allgemeine Java-Themen	3	23. Nov 2014
J	Synchronized Probleme	Allgemeine Java-Themen	7	19. Okt 2014
J	Java Progressbar & Download Probleme	Allgemeine Java-Themen	10	17. Okt 2014
S	Probleme mit dem filechooser	Allgemeine Java-Themen	1	6. Sep 2014
J	Comperator Probleme	Allgemeine Java-Themen	4	26. Jul 2014
A	Probleme beim auslesen von Quelltext (HTML)	Allgemeine Java-Themen	5	25. Mai 2014
S	Probleme mit Webappplikation	Allgemeine Java-Themen	5	15. Mai 2014
L	Plötzlich Probleme mit der JVM :(	Allgemeine Java-Themen	6	7. Apr 2014
S	starke performance probleme des forums	Allgemeine Java-Themen	10	18. Mrz 2014
K	Probleme bei Berechnung der Komplexität	Allgemeine Java-Themen	7	14. Mrz 2014
R	JRE Ablaufdatum seit 7u10 - Probleme bei selbst ausgelieferter JRE bekannt?	Allgemeine Java-Themen	3	30. Jan 2014
H	Reg Exp Probleme	Allgemeine Java-Themen	5	14. Jan 2014
M	Classpath Probleme bei JAR Generierung	Allgemeine Java-Themen	2	10. Jan 2014
S	Probleme mit JAVA-Installation	Allgemeine Java-Themen	3	1. Jan 2014
D	Probleme bei for-Schleife	Allgemeine Java-Themen	4	25. Dez 2013
R	Probleme mit Javadoc	Allgemeine Java-Themen	2	8. Dez 2013
G	Gson Probleme	Allgemeine Java-Themen	2	29. Okt 2013
P	KI für TicTacToe programmieren > Probleme	Allgemeine Java-Themen	2	31. Dez 2012
M	Google App Engine macht Probleme	Allgemeine Java-Themen	4	12. Dez 2012
H	Probleme mit finally-Block und close()	Allgemeine Java-Themen	4	12. Nov 2012
F	2d array probleme	Allgemeine Java-Themen	2	10. Nov 2012
M	3D-Grafik Probleme beim drehen von Objekten	Allgemeine Java-Themen	9	9. Nov 2012
T	Interface Probleme	Allgemeine Java-Themen	8	29. Okt 2012
C	Eclipse Probleme bei selbst erstelltem Algorithmus	Allgemeine Java-Themen	2	20. Okt 2012
M	Probleme mit String in Label übergeben.	Allgemeine Java-Themen	6	23. Sep 2012
H	MediaManager Fragen/Probleme	Allgemeine Java-Themen	6	22. Aug 2012
U	Probleme mit Kopiervorgang	Allgemeine Java-Themen	3	22. Aug 2012
S	Probleme beim Auslesen einer Liste	Allgemeine Java-Themen	8	15. Jun 2012

Probleme bei der decodierung von texten

Didi

Mitglied

mr1st

Gast

Didi

Mitglied

mr1st

Gast

Bleiglanz

Gesperrter Benutzer

Didi

Mitglied

Ähnliche Java Themen

Aktuelle Jobs

Neue Themen