POPFile 0.22.5 RC4 が公開

POPFile の次のバージョン(0.22.5)のリリース候補版である、POPFile 0.22.5 RC4 が公開されたMac OS X 版(universal binary)も公開中)。特に問題がなければ、RC5 を経て正式リリースとなる見込み。
今回のバージョンは主にバグ修正などのメンテナンスリリースで、日本語関係の変更点は以下のとおり。

  • 処理速度の向上

文字コード変換処理で、変換不要な場合は処理をスキップすることによってパフォーマンスを向上。ヘッダ部分や英文で書かれたメールなど、文字コード変換が不要な場合に効果がある。

  • HTML エンティティが含まれている場合に正しく処理できないことがある問題を修正

HTML エンティティの中には、EUC-JP のコードと競合する文字に変換されるものがある。これらを無視することによって文字化けによる分類ミスを防ぐ。

  • キャラクタセットを 1 メール処理するごとにリセットするように修正

メールにキャラクタセットの指定がされていない場合、その前に処理したメールのキャラクタセットが使われるようになっていた。再使用しないように修正した。

  • Windows 環境で使用している際に 'uninitialized value' の警告が表示される問題を修正

コンソールを表示しているときにしか見ることのない警告だが、気になるので修正した。

  • バケツタブの単語表で、単語のリンクが URL エンコードされていない問題を修正

単語のリンクがエンコードされていなかったため、リンク切れになってしまっていた。

その他、Windows 版では含まれている Perl のバージョンアップや、ダウンロードされる SSL モジュールが POPFile と互換性のあるバージョンにダウングレードされるように修正されるなどの変更が行われている。

0.23 に向けて日本語関係で考えていること

今回のバージョンでは見送ったが、次のメジャーバージョンアップには実現したいと思っていること。

  • Kakasi がなくても動くようにする

id:amatubu:20070524#p1 で書いたように、文字種による分割というシンプルな分かち書きでも高い精度が実現できることがわかったので、この機能を組み込みたい。MeCab については保留。

  • UI の履歴タブでの細かい文字化けを修正する

履歴の表示において、件名や宛先などが長い場合途中までが表示されるようになっているが、EUC-JP の 1 バイト目と 2 バイト目の間で切れてしまって文字化けしてしまっていることがある。細かいが、修正したい(手元では修正済み)。
CP932 への対応とか、マイナーなバグへの対応については微妙。あまり効果がなさそうなのと、副作用もありそうなので。
最近 Word 文書などの添付ファイルがついたメールを学習させたときに半角カタカナの「ハハハハ」というような単語が大量に登録されることを発見して何か対処した方がよいかどうか考え中。これもマイナーな問題と言えばマイナーな問題だけれど。本格的にやろうと思ったら Word 文書の中身を調べられるように……という話にもなりそうだけど、実際のところ Word 文書を添付した spam とかがあらわれない限りはあまり効果はなさそうだし。処理速度も含めて考えれば今の形で十分なような気もしてしまって。