Hatena::ブログ(Diary)

hnwの日記 このページをアンテナに追加 RSSフィード

[プロフィール]
 | 

2009年5月3日(日) UTF-8→SJIS/EUC-JPの重複文字をまとめてみた このエントリーを含むブックマーク このエントリーのブックマークコメント

文字エンコーディングの変換を行うと、異なる2文字が同じ文字に変換されることがあります。このような文字を重複文字と呼ぶことにします。UTF-8Shift_JISおよびUTF-8EUC-JPについて、重複文字を自分用の資料としてまとめてみました。


MacOSX上のPHP5.2.9での実験結果ですが、プログラミング言語や環境によらず気をつけるべき文字一覧ということになると思います。


色のついている部分が重複している部分です。「-」となっているのは変換できなかった文字です。また、ヘッダのカッコ数字ごとに文字エンコーディング変換に利用した関数が異なります。詳細は下記の通りです。



-UTF-8SJIS
(1)

(2)

(3)

(4)
EUC-JP
(5)

(6)

(7)

(8)
f:id:hnw:20090503234819p:image
5c5c5c-5c5c5c5c5c
f:id:hnw:20090503234355p:image
c2a5818f818f5c--a1ef5c5c
f:id:hnw:20090503234344p:image
efbfa5818f818f818f818fa1efa1efa1efa1ef
f:id:hnw:20090503234818p:image
7e7e7e-7e7e7e7e7e
f:id:hnw:20090503234350p:image
e280be815081507e--a1b17e7e
f:id:hnw:20090503234346p:image
efbfa38150815081508150a1b1a1b1a1b1a1b1
f:id:hnw:20090503234356p:image
e280968161816181618161a1c2a1c2a1c2a1c2
f:id:hnw:20090503234357p:image
e288a581618161-8161a1c2a1c2-a1c2
f:id:hnw:20090503234358p:image
e28892817c817c817c817ca1dda1dda1dda1dd
f:id:hnw:20090503234342p:image
efbc8d817c817c-817ca1dda1dd-a1dd
f:id:hnw:20090503234955p:image
e3809c8160816081608160a1c1a1c1a1c1a1c1
f:id:hnw:20090503234817p:image
efbd9e81608160-8160a1c1a1c18fa2b7a1c1
f:id:hnw:20090503234353p:image
c2a28191819181918191a1f1a1f1a1f1a1f1
f:id:hnw:20090503234349p:image
efbfa081918191-8191a1f1a1f1-a1f1
f:id:hnw:20090503234352p:image
c2a38192819281928192a1f2a1f2a1f2a1f2
f:id:hnw:20090503234348p:image
efbfa181928192-8192a1f2a1f2-a1f2
f:id:hnw:20090503234351p:image
c2ac81ca81ca81ca81caa2cca2cca2cca2cc
f:id:hnw:20090503234347p:image
efbfa281ca81ca-81caa2cca2cc-a2cc
f:id:hnw:20090503234354p:image
c2a6----8fa2c38fa2c38fa2c38fa2c3
f:id:hnw:20090503234345p:image
efbfa4-fa55-fa55-8fa2c3-8fa2c3

(2)と(6)とか、(5)と(6)とかを見比べてみて重複文字が異なるのは不思議な気がします。


iconvの結果は環境ごとに違うと思います。あくまで僕のMacOSX上のlibiconvの挙動ということですが、(3)は僕が何かミスったのかもしれません。0x5cや0x7eといったASCII文字1文字を変換できないんじゃ、怖くて何にも使えない気がします。

 | 
ページビュー
2201291