文字 | |
XML ドキュメントは本来はテキストドキュメントであり、文字で構成されます。異種のコンピュータシステム間でドキュメントを移植可能にし、可能な限り多くの判読可能な言語でコンテンツを含むことができるようにするため、XML パーサーには Unicode 標準を実装することが求められています。すべての XML ドキュメントを Unicode で保存、編集する必要があるわけではありませんが、XML パーサーはネイティブ文字エンコードから Unicode にドキュメントを変換できる必要があります。すべての XML パーサーには、入力エンコード形式として最低でも UTF-8 または UTF-16 をサポートすることが求められています。エンコード形式と Unicode の詳細については、第 27 章を参照してください。 XML 1.0 と XML 1.1 の主な違いの 1 つは、XML ドキュメント内で有効な Unicode 文字の定義にあります。XML 1.0 では、ASCII 制御文字の多く (BEL、NAK など) が XML ドキュメント内では明確に禁止されていました。XML 1.1 では、数字参照でエスケープできる限り、NULL、x0000 を除くこれら 60 個の Unicode 制御文字が許可されます。XML 1.1 では、0x0080 および 0x009F 間の C1 制御が、数字参照でエスケープできることも要求されていますが、これは XML 1.0 では要求されていません。 |