Zeichen | |
XML-Dokumente sind an sich Textdokumente, die sich aus Zeichen zusammensetzen. Um sicherzustellen, dass Dokumente über verschiedene Computersysteme hinweg portierbar sind und Inhalt in möglichst vielen der geschriebenen menschlichen Sprachen umfassen können, ist für XML-Parser eine Implementierung des Unicode-Standard erforderlich. Das bedeutet nicht etwa, dass alle XML-Dokumente in Unicode gespeichert und bearbeitet werden müssen, sondern vielmehr, dass ein XML-Parser in der Lage sein muss, das Dokument von seinem ursprünglichen Zeichensatz in den Unicode-Zeichensatz zu konvertieren. Alle XML-Parser müssen (mindestens) entweder UTF-8 oder UTF-16 als Eingabe-Kodierungsform unterstützen. Weitere Erläuterungen zu Kodierungsformen und Unicode erhalten Sie in Kapitel 27. Einer der vorwiegenden Unterschiede zwischen XML 1.0 und XML 1.1 ist die Definition, welche Unicode-Zeichen innerhalb eines XML-Dokuments zulässig sind. In XML 1.0 wurden viele der ASCII-Steuerzeichen (wie etwa BEL und NAK) ausdrücklich von der Verwendung in XML-Dokumenten ausgeschlossen. XML 1.1 hingegen lässt jegliches Unicode-Zeichen einschließlich der 60 Steuerzeichen zu (außer Null, x0000), solange sie in Form numerischer Zeichenreferenzen angegeben werden. Allerdings schreibt XML 1.1 vor, dass die C1-Steuerzeichen zwischen 0x0080 und 0x009F in Form numerischer Zeichenreferenzen angegeben werden, was gemäß XML 1.0 noch nicht notwendig war. |