燈明日記 このページをアンテナに追加 RSSフィード

ごあいさつ

燈明日記へようこそ!!

燈明日記の主なテーマは、以下の通りです。

そして、燈明日記へ来られたのも『私』と『あなた』の何かのご縁です。なので、どうぞごゆっくりご覧下さい!


2008/11/24(月)

[] UTF-16は、実は5種類ある!

ユニコードは、コード自体は一つ(ユニーク)なのだけど、そのエンコードの方法には沢山があります。

よく使われるエンコードは、UTF-8とUTF-16です。

UTF-8は、Web系やPerlでよく使われていて、1バイト文字はアスキーコードと互換性があり、漢字は3バイトでエンコードします。


一方、UTF-16は、なんとUTF-16だけでも5種類のエンコード方法があるのです。知っていましたか?

基本的に文字を2バイトのコードで表現するエンコードです(今回サロゲートペアについての説明はパス)。


バイトの並び方の違いでビックエンディアンとリトルエンディアンがあり、なおかつ、各々にBOM(Byte Order Mark)が付くエンコードがあります。

まず、BOMの付かない、以下の2通りのエンコードがあります。

  • BOMの付かないビックエンディアンをUTF-16BEといます。
  • BOMの付かないリトルエンディアンをUTF-16LEといます。

そして、単にUTF-16と言った場合、以下の3通りが許されるとのことです。

  • BOM付き(FE FF)ビッグエンディアンのUTF-16。
  • BOM付き(FF FE)リトルエンディアンのUTF-16。
  • BOMの付かないビックエンディアンのUTF-16。

と言うことで、UTF-16は、以上の5種類があるのです。


◆サンプル:『A』をUTF-16で表現したときの5つのエンコード

エンコード名エンコード
UTF-16BE00 41
UTF-16LE41 00
UTF-16 FE FF 00 41
UTF-16 FF FE 41 00
UTF-16 00 41

tt 2013/04/25 14:03 4種類じゃないんでしょうか…?

chaichanPaPachaichanPaPa 2013/04/26 22:30 状態としては4種類ですが、呼び方としては5種類とか…。
種類に関しては、あまり気にしないでください。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/chaichanPaPa/20081124/1227514306
リンク元