Kann man einen Text mit ISO 8859 codieren und dann mit UTF-8 auslesen?

Question

Kann man einen Text mit ISO 8859 codieren und dann mit UTF-8 auslesen?

Ein anderes Problem?

Werner-Salomon · Answer 1 · 2019-11-01T17:58:49+0000

Hallo Sheymxxn,

Kann man einen Text mit ISO 8859 codieren und dann mit UTF-8 auslesen?

nein - im Allgemeinen geht das nicht. Zwar ist bei Zeichen mit Codes kleiner 0x80 in den Encodings von ISO-8859 und UTF-8 kein Unterschied, aber es können ja auch Zeichen mit einem höheren Code im Text stehen. Das gilt z.B. für alle Umlaute (im deutschen) und für das 'ß'. Ein 'ü' welches mit ISO-8859 geschrieben wird, hätte auf dem Zielmedium den Code 0xFC. Wird dieses Byte mit UTF-8 gelesen, würde dies im besten Fall als der Start einer 6 Byte langen UTF-8-Sequenz interpretiert. Hätte dann das nächste Byte im Bit7 eine 0 stehen, was sehr wahrscheinlich ist, würde der UTF-8-Lese-Algorithmus bereits einen Fehler liefern.

Die Worte 'für' oder 'über' hätten bereits den oben beschriebenen Effekt.

Wenn Du garantieren kannst, dass im Text nur Codes kleiner 0x80 vorkommen, würde es natürlich funktionieren. Aber nur dann!

Gruß Werner

Kann man einen Text mit ISO 8859 codieren und dann mit UTF-8 auslesen?

1 Antwort

Ähnliche Fragen

Eingabetools:

Beliebte Fragen:

Heiße Lounge-Fragen: