Hatena::ブログ(Diary)

あまつぶ@はてなダイアリー RSSフィード

あまつぶWikiあまつぶ過去ログMacソフトWinソフト掲示板
<カレンダー>
2003 | 09 | 10 | 11 | 12 |
2004 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2005 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2006 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 12 |
2007 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2008 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2009 | 01 | 02 | 03 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2010 | 01 | 03 | 04 | 05 | 06 | 07 | 09 | 11 |
2011 | 02 | 07 | 08 | 11 |
2012 | 04 | 11 |
2013 | 07 | 09 | 10 |
2014 | 11 |
2015 | 11 |

<< 2009/11 >>
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

<最近の見出し>




POPFile の Mac OS X(Panther/Tiger/Leopard/Snow Leopard/Lion/Mountain Lion/Mavericks/Yosemite)用インストーラをお探しの方は、POPFile プロジェクトのダウンロードページへ。
 | 

2009-11-10 不正な形式のメールをどう扱うべきか

[]不正な形式のメールをどう扱うべきか 不正な形式のメールをどう扱うべきかを含むブックマーク

POPFile の Open Discussion フォーラムに、POPFile の分類結果をあらわすヘッダが本文に追加されるという書き込みがあった。元のメールを送ってもらって内容を確認してみたところ、書かれているとおりメールヘッダとメール本文の間に空行が存在せず、本来は本文なのであろう部分をヘッダとして処理してしまっていることが判明した。POPFile はメールヘッダの最後に X-Text-Classification などのタグを追加するのだが、本文の一部もヘッダ扱いとなっているため、結果的に本文の中にヘッダを追加することになってしまう。

この場合でも X-Text-Classification は(メールの形式的には)ヘッダ部分になるはずなので、メールクライアントでの分類も問題なく行えるのではないかと思うのだが、どうやらうまくいっていないようだ。

しかし実際のところこういうメールはどう扱うのがよいのだろう。いくつか方法は思いつくが、いまいちピンとこない。例えば、ヘッダを追加する場所をメールヘッダの「最後」ではなくて「最初」にするとか、ヘッダとして不正な文字列を発見した場合はそこをヘッダと本文の区切りと見なすとか……? 最初というのはこれまでの動きと全く異なることになるし、Received ヘッダより前にヘッダを追加するというのはあまり筋がよいとは言えないと思う。ヘッダとして不正な文字列があったとしても、本当にたまたまヘッダの中にゴミが紛れ込んでいるだけなのかもしれないし。

また、こういう比較的まれだと思われるケースについてどこまで対応していくべきなのかという問題もある。スパマーに悪用されるということになれば考えていかなければならないが、このようなメールというのはどのくらい流通しているものなのだろう。

不正ヘッダを持つメールをどう扱うべきかについてのアイデアや、そういうメールがどのくらい存在しているかについての情報をお持ちの方はコメントいただけると助かります。

stealthinustealthinu 2009/11/11 09:35 本来この形式だと、メーラーは「本文部分」を本文と認識しないはずですから、そこに追加してもフィルタが処理してくれるはずですよね。
ということは、そういう場合に「本文部分」を認識するロジックが空行区切りだけではないメーラーがいるということだと思うんですが、そのメーラーはなんでしょうか。
やっぱりOEとかOLとかなのかしら…
しかたないからそのメーラーのロジックに合わすしかないと思うのですが、なんかそれこっちの責任?という気がしちゃいますよね。

amatubuamatubu 2009/11/11 23:49 そうですね、私も最初そう思ったのですが、どうもフィルタが反応しないみたいなのですよね。メーラーは Thunderbird の Linux 版ということです。
私のところでも Mac 版で試してみたのですが、画面表示ではヘッダと認識しているようなのです(Linux 版でどう表示されているかのスクリーンショットも送ってもらいましたが、そこでもヘッダ部分に表示されてました)。フィルタが反応するかどうかまでは検証していないのですが……。
「ヘッダ部分」だと認識してもフィルタが反応しないケースがあるということになるのでしょうか。確かに「メールクライアントのバグでは?」と思いたくなるケースですね。

2009-11-08 掲示板の書き込みをフィルタする

[]掲示板の書き込みをフィルタする 掲示板の書き込みをフィルタするを含むブックマーク

うちの掲示板でテストしているフィルタモジュールについて、うまく動いているようなので、説明ページを作ってみた。

正式に公開するにはまだ課題があるが、POPFile 自体に手を入れることもなく、POPFile をデーモンとして動作させる必要もないため結構使えるのではないかと思う。

POPFile は、ユーティリティスクリプトとして付属している bayes.pl と insert.pl を使っているだけであるため、モジュールやファイルをすべてインストールする必要はない。UI やプロキシ関係のモジュール、言語ファイルやスキンファイルなどはすべて不要。使用するふたつのスクリプトのほかは、Classifier フォルダと POPFile フォルダだけあれば動く。

必要なファイルが少ないということは、逆に言えば機能が少ないということを意味する。UI がないため、バケツを作成することもできない。このため、最初にローカルで POPFile をうごかしてバケツを作っておく必要がある。とりあえずテストするのであれば、メール用に使っているものを流用してもいいだろう。

うちの掲示板には時々スパム書き込みがある程度で、テスト環境としてはちょっといまいちなのだが、最初に少し学習させてからはほとんど問題なく分類できている。書き込みがあるたびにメールが飛ぶように設定しているのだが、分類結果が「spam」となっているのを見て「勝った」と満足している。

もし興味のある方がいれば、試してみてもらえるとうれしい。要望やバグなどがあればできるだけ対応していきたいと思う。

2009-11-01 Libron が三重県内の図書館にも対応しました

[]Libron が三重県内の図書館にも対応しました Libron が三重県内の図書館にも対応しましたを含むブックマーク

Amazon の書籍のページに最寄りの図書館の蔵書情報と予約のためのリンクを追加してくれる Libron が、三重県内の図書館にも対応です。先週末くらいからちょこちょこと作業していたものを、jishiha さんにマージしてもらいました。

県内の図書館では、Web からの予約ができるところは県立以外にはふたつしかないという状況のため、「○○で予約」の代わりに「○○に蔵書あり」というリンクを表示するというパッチも提供させていただきました。このあたりはちょっと不便で残念なところですが、県立図書館の蔵書を予約して最寄りの図書館で受けとることができるサービスもあるので、そのサービスを活用されるのもよいですね。

実は、県立図書館以外を選択している場合には、「○○には見つかりません」と表示された場合でも、そのリンク先が「https://idx.milai.pref.mie.jp/MEPUTL/servlet/」から始まっている場合には、リンクをクリックすることで横断検索のできる他の図書館の蔵書のページに飛ぶことができます(他の図書館を含めても蔵書がないときは「http://www.milai.pref.mie.jp/」がリンク先になります)。もし、そのページを確認して県立図書館に蔵書があれば、そこから予約することもできるというわけ。見つからなくても、あきらめずにクリックしてみるとよいことがあるかも……というおまけ機能ですね。

ちなみに、Libron を使うためには、FirefoxGreasemonkey というアドオンをインストールしておく必要があります。とても便利なツールなので、最寄りの図書館に対応している場合にはぜひインストールしましょう。

 | 
479588
Connection: close