Mac OS Xの文字コード問題に関するメモ このページをアンテナに追加 RSSフィード

2008-05-28

InDesign CS3にCJK互換漢字をペーストしたときの文字化け


  • ところがInDesign CS3では、以前の仕様にもどってしまっている。下図は、左上のウインドウJedit Xの標準テキスト・モード)のCJK互換漢字をコピーし、右下のウインドウInDesign CS3)にペーストしたもの。

f:id:NAOI:20080528151532j:image

  • これらの互換漢字と統合漢字はUnicode的には正規等価(canonical equivalent)であるから正規化(統合漢字に統一)されても仕方がないという理屈も世の中にはないではないのだが、日本語ユーザにとって互換漢字は数多くの人名用漢字を含むものであり、それを無言で「正規化」するような振る舞いが(特にDTP用のアプリケーションでは)危険であることは言うまでもない。

丸山丸山 2008/05/31 03:33 この問題を解決しようとして作ったのが、拙作の「FILL InDesign」なんです。互換漢字をプレーンテキストでペーストします。せうぞーさんの承諾をいただいて「paste plain text」をパクったものですけど…。

Unicode正規化というのは、そもそもは Unicode Collation Algorithm で文字列をソートする時などに、ユーザへ影響を与えない裏方で処理をする規格ですよね。だから、互換漢字を統合漢字にして同じ文字とみなすようにする「合成除外」が必要だというのも納得できるのです。

それをAdobeが「結合文字列を単一コードポイントに合成させる」という目的のみで一律に NFC に正規化するのは、あきらかに「Unicode正規化の誤用」だと感じています。Adobeほどの会社なら、安直に NFC など使わず、文書用の「結合文字列を単一コードポイントにする変換テーブル」を自前で作れそうなものなんですけどねえ。

NAOINAOI 2008/06/01 13:45 丸山さん、コメントありがとうございます。Unicode正規化についてご指摘の件、非常に興味深い論点だと思います。Unicode正規化を語り始めると話が長ーくなりそうなので、できれば今後何らかの形でもう一度話題にしてみたいと思っています。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

Connection: close