最終更新:2017-11-14 (火) 07:51:30 (2354d)  

Unicode
Top / Unicode

http://www.ftrain.com/unicode/

http://www.unicode.org/

Unicode Consortiumの制定した文字集合?

  • REPLACEMENT CHARACTER
    • U+FFFD �

メモ

  • Unicode 1.0? - 1991
  • UCS-2?: のちにUTF-16として拡張される

Unicode正規化

  • 例 「/」
  • 正しいエンコード
    • 0x2F
  • 不正なエンコード
    • 0xC0 0xAF  (2バイト表現)
    • 0xE0 0x80 0xAF  (3バイト表現)
    • 0xF0 0x80 0x80 0xAF (4バイト表現)

表現

メモ

諸々

  • Unicode: Unicode Consociumの制定した文字集合。(U+0 - U+1FFFFF)
  • UTF-8/16/32: Unicode Transformation Format。Unicodeの符号化方式。
  • ISO/IEC 10646? (UCS?): 国際文字集合規格(群、面、区、点)。制定前にUnicodeが出て来たためそのコンパチに。Unicodeの文字はこのうち0群16面まで。
    • UCS-4?: ISO規格の31bit符号集合。規格化文字集合+外字。
    • UCS-2?: ISO規格の16bit符号集合。基本多言語面のみ。(例:U+1234)
  • UTF-8/16/32: UCS Transformation Format。UCSのバイナリ符号化方式。(例:0x12 0x34)
    • UTF-8: Unicodeの方と違い6Byte長まであり。

関連

参考