サロゲートペア

Unicodeコンピュータのファイルやメモリ上で表現する方式として代表的なものにUTF-16というものがある。この方式では、16ビット=65536個の文字を表現することができる。

しかしUnicodeではさらに多くの文字が収録されているので、65536文字に収まりきらず、16ビットでは全ての文字を表すことができない。そこで、一部の領域をサロゲート専用とし、このサロゲート2つで1の文字を表すこともできるようにした。これをサロゲートペアと呼ぶ。

この存在によってUTF-16は固定長の文字コード文字符号化方式)ではなくなってしまった。