StartWeblogÜbersichtBlog-Eintrag
Änderungen an der Site-Struktur Weblog W3C-Tag 2004

Blog-Eintrag

Neu! Alles wird Unicode

Alle Seiten unter www.sierkbornemann.de werden von nun an in Unicode (UTF-8) dargestellt. Bisher habe ich die für Westeuropa gültige Kodierung des ISO-Zeichensatzes, ISO-8859-15, verwendet.

Unicode bzw. der identische ISO-10646-Standard strebt die möglichst vollständige Erfassung aller bekannten Zeichen aus gegenwärtigen und vergangenen Schriftkulturen an. Die Zeichen werden nach Klassen katalogisiert und erhalten einen Zeichenwert. Alle nur erdenklichen Zeichen und Zeichensorten werden erfasst.

Probleme, die im Zusammenspiel mit den bisherigen unterschiedlichen Zeichensätzen auftauchen, gehören mit der Verwendung von Unicode der Vergangenheit an, weil man so schreiben kann, wie man möchte ohne sich um die Kodierung von länder- oder sprachspezifischen Sonderzeichen/Umlauten Gedanken zu machen. Das erleichtert die Vielsprachigkeit bzw. eine gleichzeitige Nutzung unterschiedlicher Sprachen.

Ein Beispiel: Vor Einführung des Euro war der Zeichensatz der Wahl ISO-8859-1 (Latin-1) für Westeuropa und Amerika. Mit Einführung des Euro ist das zugehörige Währungssymbol (€) mit einem Mal nicht darstellbar, weil es so neu ist, dass es in keinem bisherigen Zeichsatz zu finden ist. ISO-8859-1 ist deshalb um dieses Währungssymbol erweitert worden, und steht seit wenigen Jahren in Form von ISO-8859-15 zur Verfügung. Um Texte und Anwendungen mit Euro-Symbol darstellen zu können, bedarf es des lokal auf dem Rechner zu befindenden Zeichensatzes ISO-8859-15. Äquivalent verhält es sich mit japanischen oder chinesischen Zeichensätzen, um beispielsweise japanische oder chinesische Texte auf unseren westeuropäischen Rechnern darstellen zu können. Sie müssen bisher extra auf dem Rechner verfügbar sein. Das ist umständlich und erschwert spontanes Lesen fremdsprachiger Texte. In einer zunehmend und überall vernetzten Welt kann dies nur hinderlich und unerwünscht sein.

Anders das Szenario mit Unicode (WWW: The Unicode Consortium). Ist der Rechner bzw. die Anwendung unicode-tauglich, so bedarf es i.d.R. keiner weiteren Zeichensätze, die lokal vorhanden sein müssen, da in der Unicode-Kodierung schon die meisten aller verfügbaren Sprachzeichen vorhanden sind. Noch nicht aufgenommene Zeichen können im Bedarfsfall schnell ergänzt werden. Lediglich japanische bzw. chinesische Anwender greifen vereinzelt noch auf ihre bisher verwendeten Zeichensätze zurück, weil zwar ein großer Teil, aber eben noch nicht alle Feinheiten und Dialekte dieser variationsreichen Sprachen in Unicode verewigt sind. Es erstaunt trotzdem, wieviele unterschiedliche Sprachen und Zeichen schon in Unicode Platz gefunden haben. Das Spektrum reicht von den uns vertrauten westlichen Sprachen über kyrillisch, arabisch, jüdisch, diversen asiatischen Sprachen und Zeichen bis hin zu eher exotisch anmutenden Zeichensprachen verschiedener Indianerstämme.
Die meisten der derzeit im Umlauf befindlichen Betriebssysteme und jeder auch nur halbwegs moderne Web-Browser verstehen Unicode und können mit Unicode-kodierten Inhalte etwas anfangen. Betriebssysteme wie Windows (ME/2000/XP), MacOS X und Linux nutzen von Haus aus auf vielen Ebenen Unicode. Beispielsweise werden bei den genannten Betriebssystemen auch die Dateinamen incl. Umlaute und Leerzeichen in Unicode geschrieben, was den plattformübergreifenden Austausch von Dateien sehr erleichtert. Auch wenn das Betriebssystem schon etwas betagter und selbst noch nicht Unicode-fähig ist, wie z.B. im Fall von Windows 98, ist es hier möglich, z.B. Unicode-kodierte Webseiten zu nutzen, wenn nur der Web-Browser und die gängigsten Schriftarten Unicode-fähig sind. Diese Fähigkeit dürften alle modernen Web-Browser beherrschen (Unicode-fähige Schriftarten liefert mancher Browser-Hersteller bei einem Update des Browsers gleich mit), deshalb gibt es eigentlich keinen triftigen Grund, Unicode nicht auch für Webseiten zu verwenden. Für XML-Anwendungen, wie auch XHTML eine solche ist, ist Unicode in jedem Fall eine voreingestellte Kodierung.

Im Fall von Darstellungsproblemen mit sierkbornemann.de bitte ich um eine kurze Benachrichtigung an mich.

17:09 UTC+01:00

Anfang