character encodingのこと。文字集合(character set)を具体的なビット列に配置したもの。一般に、「文字コード」という語が用いられるとき、文字集合と文字符号化方式をひっくるめて漠然と指している場合や、両者の一方を話題にしているのに混同している場合などがあり、議論が混乱しがちである。
文字コードって、とっても難しいです。 そんな文字コードの中で、文字符号化方式について、可能な限りわかりやすく解説します。 1.UTF-16 と UTF-32 ISO-2022-JP や EUC-JP 、Shift-JIS は、複数の文字集合を利用するための文字符号化方式です。 それに対して、UTF-16 や UTF-32、UTF-8 といった文字符号化方式は、使用している文字集合は Unicode のみです。 それなら Unicode を直接利用すれば良いのでは?と普通の人は思います。 そして実際に最初は Unicode を直接利用していました。Java や C# などは今は UTF-16 を…
文字コードって、とっても難しいです。 そんな文字コードの中で、文字符号化方式について、可能な限りわかりやすく解説します。 1.文字符号化方式とは ASCⅡができたころは、「符号化文字集合」と「文字符号化方式」の区別はありませんでした。 ASCⅡ が ISO/IEC 646 として国際規格化され、JIS X 0201 や各国の文字集合ができ、それらの文字集合を混在して利用したいといったニーズと、漢字などを扱いたいというニーズから、ISO/IEC 2022 が誕生し、これが文字符号化方式のベースとなりました。 その後、ISO/IEC 10646(Unicode)が誕生し、現在の文字符号化方式は I…