スマートフォン用の表示で見る

UTF-8

コンピュータ

UTF-8

ゆーてぃーえふえいと

Unicode (or UCS) Transformation Format, 8-bit encoding form.

Unicodeでは Unicode Translation Format-8

ISO/IEC 10646では 8-bit UCS Transformation Format

UnicodeISO/IEC 10646(UCS)のエンコーディング方法のひとつ。

ASCIIの範囲内にある文字は1バイトに、大抵の漢字や仮名は3バイトにエンコーディングする特徴がある。

RFC 2279で、UCS(Unicodeのコード値)からの変換方法が定義されている。

   UCS-4 range (hex.)           UTF-8 octet sequence (binary)
   0000 0000-0000 007F   0xxxxxxx
   0000 0080-0000 07FF   110xxxxx 10xxxxxx
   0000 0800-0000 FFFF   1110xxxx 10xxxxxx 10xxxxxx
   0001 0000-001F FFFF   11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

   c.f. Invalid sequence
   0020 0000-03FF FFFF   111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
   0400 0000-7FFF FFFF   1111110x 10xxxxxx ... 10xxxxxx

詳しくはRFC 3629を参照してください。

IETFにより、STD番号(STD63)が割り振られている。