UTF-32

Unicode
Kodierungen
Techniken

UTF-32 (UCS-4) ist eine Methode zur Kodierung von Unicode-Zeichen, bei der jedes Zeichen mit vier Byte (32 Bit) kodiert wird. Sie kann deshalb als die einfachste Kodierung bezeichnet werden, da alle anderen UTF-Kodierungen variable Bytelängen benutzen. Im aktuellen Unicode Standard 5.0 ist UTF-32 identisch zum UCS-4.

Vorteile

UTF-32 zeigt seine besonderen Vorteile beim wahlfreien Zugriff auf ein bestimmtes Zeichen, da die Adresse des n-ten Zeichens durch einfachste Zeigerarithmetik ermittelt werden kann. Auch ist es möglich, anhand der Größe eines Dokuments in Bytes umgehend die Anzahl der enthaltenen Zeichen auszurechnen (nämlich durch eine simple Division durch 4). Diese Eigenschaft relativiert sich allerdings dadurch, dass oftmals ein Unicodezeichen nicht einem Schriftzeichen entspricht (z. B. bei Ligaturen).

Nachteile

Der entscheidende Nachteil von UTF-32 ist der extrem hohe Speicherbedarf bei Texten, die überwiegend aus lateinischen Buchstaben bestehen. Verglichen mit dem verbreiteten UTF-8-, bzw. den ISO-8859-Zeichensätzen wird dabei oft viermal so viel Speicherplatz belegt. Deshalb wird es auch kaum zum externen Speichern verwendet.

Quelle:
Artikel UTF-32 aus der freien Enzyklopädie Wikipedia mit dieser Versionsgeschichte
Lizenz:
Kategorien:
Werbung
Empfehlungen
Bürckel, Nils; Davidenkoff, Alexander; Werner, Detlef
59,90 €

Hrsg. v. Paulien Bom u. Machteld Huber
14,50 €
Bookmarks
delicious wong linkarena google
Sponsoren