Binäre Kodierung von Zeichen

Die bekannteste, wenn auch inzwischen veraltete Kodierung für Zeichen in Computern ist der ASCII, hierzu gibt es ein Arbeitsblatt.

Ausschnitt aus einem Blogeintrag von Bernd Leitenberger. Die UTF8-Kodierung ist gesetzt. Das Problem: Die zugewiesene Schriftart hat keine passenden Zeichen für die Codepoints. Irgendwas ist ja immer!

Hier kannst du die verschiedenen Darstellungen ausprobieren:
Zeichen	binär	dezimal	hexadezimal

Als der ASCII festgelegt wurde, spielte eine international funktionierende Kodierung noch keine Rolle. Daher wurden regionale ASCII-Erweiterungen (Codepages) verwendet, z.B. für Umlaute und Accents. Das Problem: Derselbe Code kann in jeder dieser Erweiterung eine andere Bedeutung haben. Zu Lösung wurde Unicode entwickelt. Er weist jedem Zeichen eine Zahl ("Codepoint") zu. Um kompatibel zu bleiben, sind die ersten 127 Zeichen des Unicode die selben wie im ASCII. UTF-8 wiederum ist eine Kodierung für Unicode, also eine Darstellung von Codepoints als binäre Muster. In UTF-8 werden die ersten 127 Codepoints in je einem Byte kodiert. Für diese Zeichen sind ASCII und UTF-8-Kodierung also identisch.

Editoren für Programmierer erlauben immer die Festlegung einer Zeichenkodierung, empfohlen wird die Verwendung von UTF-8 (falls angegeben: ohne BOM). Damit Webbrowser den korrekten Zeichensatz verwenden können, wird er im Head-Teil angegeben: <meta charset="utf-8">.

Der nächste Abschnitt beschäftigt sich mit Binärdaten in Dateien.