報國挺身日記 このページをアンテナに追加 RSSフィード

2007/09/04

[][] 結合文字 23:51

将来にわたって鬼車がUnicode結合文字を1文字として
扱うことができない(するつもりがない)というのは、
いちユーザとして悲しい宣言です。

そのような宣言をした記憶はまったくありませんが?

反対に、サポートすると宣言した覚えもありません。

Unicode結合文字に関心がないので、そのような宣言はしていないつもりです。

分からないので推測ですが、mbc_enc_len()が終了位置のチェックをしないままではできないと思われたのかもしれませんが、何度も書いているように、鬼車の内部では不完全なバイト列は含まないことを条件にしているので関係ないと思います。仮に実装するとしても、mbc_enc_len()の中で結合文字の処理はしないでしょうから。

まつもとまつもと 2007/09/05 00:01 akrさんの

そうすると、Unicode の結合文字をひとつの文字として扱うのは難しそうですねぇ

に対して、

必要なら、鬼車に手を入れてもらうしかありません。

ということですから、「鬼車は結合文字に対応しない(つもり)」と読みました。
が、それは読み違いで「結合文字に対応するとも、しないとも言ってない。が、仮に対応するとしても、mbc_enc_len()でないところで対応するだろう」ということなのですね。

それでは私の誤読でした。失礼しました。

2006/12/10 T双対性

[] BEとLE (1) 14:45

以前から疑問に思っているのだが、何故Unicodeのencoding schemeは、big endianとlittle endianの両方をサポートしているのだろうか?片方だけで十分ではないのか?

どちらか決めにくい点を、敢て決めてしまうのが規格の役割ではないだろうか?

[] BEとLE (2) 21:26

以前読んだ本の中で、Unicodeは情報交換用だけではなく、内部コードとして使用されることも考慮しているということが書いてあった気がする。しかし、内部処理のencodingは処理の都合に合わせて自由に決めれば良いだけで、規格で与える必要は全くないと思う。内部処理のことを考えなければ、両方のendianをサポートする必要もなくなるのではないか?

nursenurse 2006/12/11 02:39 「内部コードは外部で使うな」といくら言っても聞かない人は絶対いる、という反省かな、と。

kkoskkos 2006/12/11 22:38 なるほど。納得です。

2006/12/08 AdS時空

[] リトアニア語 21:58

SpecialCasing.txtにはリトアニア語固有のcase変換が載っているのに、CaseFolding.txtには載っていない。トルコ語のcase foldだけが載っている。これは何故だろう?ロケール依存で、複数文字にfoldされるのは複雑過ぎるので、省かれたのだろうか?