hallo
habe folgendes problem:
und zwar soll ich ein programm schreiben um 2 textdateien miteinander vergleichen zu können.
da sich jedoch der quellcode von den dateien je nach verwendetem zeichensatz (ascii, utf-8, iso-8859-1) unterscheidet, es aber ja nur auf den eigentlichen inhalt der dateien ankommt muß ich diese nun in einen einheitlichen zeichensatz decodieren. das decodieren selbst klappt nur tritt folgendes problem auf:
beim decodieren mittels eines Chardecoders mit Charset("UTF-8) macht er folgendes
die beiden uncodierten strings gibt er mir so aus:
ascii: test
utf-8: test
die decodierten dann so:
ascii: test
utf-8: ?test
woran liegt es dass er das fragezeichen so decodiert?
in der textdatei steht einfach nur drin: test
da fällt mir grade nochwas ein:
wie sehen die ersten bytes von textdateien aus?
also wo finde ich bzw wie greife ich auf die informationen zu welcher zeichensatz zugrunde liegt.
mfg
Matthias
habe folgendes problem:
und zwar soll ich ein programm schreiben um 2 textdateien miteinander vergleichen zu können.
da sich jedoch der quellcode von den dateien je nach verwendetem zeichensatz (ascii, utf-8, iso-8859-1) unterscheidet, es aber ja nur auf den eigentlichen inhalt der dateien ankommt muß ich diese nun in einen einheitlichen zeichensatz decodieren. das decodieren selbst klappt nur tritt folgendes problem auf:
beim decodieren mittels eines Chardecoders mit Charset("UTF-8) macht er folgendes
die beiden uncodierten strings gibt er mir so aus:
ascii: test
utf-8: test
die decodierten dann so:
ascii: test
utf-8: ?test
woran liegt es dass er das fragezeichen so decodiert?
in der textdatei steht einfach nur drin: test
da fällt mir grade nochwas ein:
wie sehen die ersten bytes von textdateien aus?
also wo finde ich bzw wie greife ich auf die informationen zu welcher zeichensatz zugrunde liegt.
mfg
Matthias