河童@漂流中 Twitter

2011-01-18

Google ReaderのタグはUnicode順で並べられる

Google Readerへフィード(RSS)をひたすら追加しています。

だけど、数が増えてきたのでタグ(フォルダー)を付けて整理しています。現在、登録フィードの数は218。


既存のフィードはあらかた整理し終わったのですが、先程、新規のフィードを登録してタグを付けようとして気付きました。漢字で始まるタグの並びの違和感です。

具体的には以下となっています(抜粋)。


数字→アルファベット→平仮名→片仮名→漢字、となっています。

片仮名までは納得ができる順序なのですが漢字の並びが理解できません。日本語の訓読み/音読み、中国語(中文)のピンイン(アルファベット表記)、更には部首順でもありません。

日本人としては音読み/訓読みのどちらかで並んでいると便利です。ちなみにJIS規格では第1水準が音読み、第2水準が訓読みです。


あれこれ考えてみたのですが、日本人的な発想だと解決出来なさそうなのでWiktionaryで調べてみました。

これで納得です。ページの末に「コード等」とあり、代表的な文字コードの値が載っています。その中のUnicodeの値が以下です。

  • 中 → 0x4E2D
  • 予 → 0x4E88
  • 人 → 0x4EBA

つまりUnicode順でソートされているわけですね。納得です。

たとえGoogle Readerのタグがローカライズされたとしても、UnicodeにはJIS規格で定義されている文字よりも多くの文字があるので、音読み/訓読みでソートするだけでも対応表を作るだけでも膨大な作業が必要となるでしょう。落とし所としては妥当ですね。


ここまで書いてふと思ったのですが、CJKV(中国語、日本語、朝鮮語ベトナム語)向け社内システムを作った場合、氏名をソートしたいという仕様が必ず出てきます。実装されている方々はどうされているんでしょうかね?氏名入力と読みを必須にする意外に方法が無いように思えます。


また、ちょっと話が逸れるかもしれませんが、Javaの実装において正規化やソートはどうなっているか心配になりました。地域化(L10N)でその辺りはうまく出来ている、ということは無いんでしょうね。仕様/要求依存でしょうから。


更に話が脱線しますが、最近話題になっているIVSとかも気になっています。風間(id:kazama)さんの[Cafe Baby:title=Cafe Babe]を見る限りだと、著名な方々が集まっても総意としてまとめるのは難しそうですね。

文字とは何か。難しい…。

投稿したコメントは管理者が承認するまで公開されません。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/kappaseijin/20110118/1295329127
リンク元
Connection: close