燈明日記 このページをアンテナに追加 RSSフィード

ごあいさつ

燈明日記へようこそ!!

燈明日記の主なテーマは、以下の通りです。

そして、燈明日記へ来られたのも『私』と『あなた』の何かのご縁です。なので、どうぞごゆっくりご覧下さい!


2008/7/24(木)

[] PerlでのシフトJIS漢字問題

WINDOWSでPerlスクリプトを組む時の漢字コードは、一番自然なのが、コードも入出力もシフトJISです。

しかし、シフトJIS漢字コードでスクリプトを組むと、不可解な世界に陥るのです。

そして、その不可解は、大きく分けて以下の2つの問題が原因なのです。

  • シフトJISの第2バイトコード問題
  • バイト列による漢字コード境界問題

シフトJISの第2バイトコード問題

シフトJIS漢字は、第1バイトと第2バイトの2バイトで表現されています。

そして、第2バイトには、ASCII 1バイト文字『@-~(10進で64-126)』と、かぶるコードが割りついているのです。

この1バイト文字には、以下の問題発生が潜在的に含んでいるのです。

  1. 第2バイトの『\』0x5c問題 - \でその後に続く文字をエスケープしてしまう。
  2. 第2バイトの『\\』連続問題 - エスケープを入れた前の漢字が1の場合だった時、\が連続してエスケープにならない。
  3. 第2バイトの『\n』連続改行問題 - 1の場合で、後に続く文字がたまたま『n』だったら改行になってしまう。
  4. 第2バイトの『@』問題 - 漢字スペースの第2バイトは『@』と同じコードで、Perlでの配列変数と区別がつかなくなる。
  5. 第2バイトの『アルファベット』問題 - 漢字なのにアルファベットだと誤認識。また、アルファベットの大文字小文字で誤認識(lc関数
  6. その他の第2バイト問題 - 明らかに問題がありそうなコード『{,},|,^,[,]』、他にもあるかも。

バイト列による漢字コード境界問題

漢字コードは普通2バイト以上で、これが連続した場合に漢字毎の境界を挟んで、たまたま別の漢字に認識されることがあるのです。

たとえば、シフトJISの場合、全角『c』の文字コードは 0x82 0x83 で、全角『d』は 0x82 0x84 で、全角『モ』は 0x83 0x82 です。

『cd』の場合、0x82 0x83 0x82 0x84 となり、2つの漢字コードの境界を挟んで、0x83 0x82となり、『モ』と同じになってしまうのです。


結論として、シフトJIS漢字コードでPerlスクリプトを組むには、相当な覚悟が必要なのです。

現象さえ見抜けば、回避する方法も、Perlでは、ほぼ用意されていますが・・・。

また、回避したコードは、他のOS上に移植した時に、例えばUNIX系とかでは動かなくなる可能性が大です。

ということで、漢字処理に関しては、以下のページがお奨めです。


尚、本記事は、以下のページを参考にさせていただきました。

しかし、このページは、Perlと文字コードに相当詳しくないと読みこなせないですね。

inaina 2008/11/25 09:05 相当な覚悟をして、Sjis モジュールというのを作ってみました。

chaichanPaPachaichanPaPa 2008/11/25 22:15 inaさん、コメントありがとうございます。
esjis-JA.txtを、ざーっと読みました。
大変な仕事をされましたね。
今後、参考にさせていただきます。ありがとうございました。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証