character encodingのこと。文字集合(character set)を具体的なビット列に配置したもの。一般に、「文字コード」という語が用いられるとき、文字集合と文字符号化方式をひっくるめて漠然と指している場合や、両者の一方を話題にしているのに混同している場合などがあり、議論が混乱しがちである。
文字コードって、とっても難しいです。 そんな文字コードの中で、文字符号化方式について、可能な限りわかりやすく解説します。 1.UTF-16 と UTF-32 ISO-2022-JP や EUC-JP 、Shift-JIS は、複数の文字集合を利用するための文字符号化方式です。 それに対して、UTF-16 や UTF-32、UTF-8 といった文字符号化方式は、使用している文字集合は Unicode のみです。 それなら Unicode を直接利用すれば良いのでは?と普通の人は思います。 そして実際に最初は Unicode を直接利用していました。Java や C# などは今は UTF-16 を…
文字コードって、とっても難しいです。 そんな文字コードの中で、文字符号化方式について、可能な限りわかりやすく解説します。 1.文字符号化方式とは ASCⅡができたころは、「符号化文字集合」と「文字符号化方式」の区別はありませんでした。 ASCⅡ が ISO/IEC 646 として国際規格化され、JIS X 0201 や各国の文字集合ができ、それらの文字集合を混在して利用したいといったニーズと、漢字などを扱いたいというニーズから、ISO/IEC 2022 が誕生し、これが文字符号化方式のベースとなりました。 その後、ISO/IEC 10646(Unicode)が誕生し、現在の文字符号化方式は I…
はじめに MySQL 5.7 から 8.0 への変更点の1つとして、文字セット(charset)が latin1 から utf8mb4 になり、utf8mb4 の場合の照合順序(collation)が utf8mb4_0900_ai_ci になる、というのがあります。 この文字セットと照合順序について調べたことをメモしておきます。
文字コードを変換する。
Rubyの多言語対応(M17N)機能において利用される。
CubeICE の利用動機の一つとして Mac などで作成された zip ファイルを解凍する際に文字化けしない と言うものが挙げられます。この記事では、なぜ文字化けが発生するのかと言う基本的な情報から、Windows における主要な解凍ソフトの対応状況までを簡単に紹介していきます。 必ずしも UTF-8 の zip ファイル解凍時に文字化けする訳ではない Mac で作成された zip ファイルを Windows で解凍すると文字化けする原因は、Mac (Windows 以外) で採用されている文字コードが UTF-8 なので、日本語用 Windows で採用されている Shift_JIS (C…