Plaggerで取ってきたインプレスとかasahi.comとかのフィードが文字化けする件
これはPlaggerが悪いんではなく、IEの文字コード認識(と、もしかするとインプレスやらasahi.comやらのHTMLの書き方)のせいっぽい。
global: timezone: Asia/Tokyo plugins: - module: Subscription::Config config: feed: - url: http://internet.watch.impress.co.jp/cda/rss/internet.rdf - module: Filter::EntryFullText config: store_html_on_failure: 1 - module: Publish::Feed config: format: RSS dir: c:/plagger filename: test.xml
のようなyamlを食わせて試してみたんですが、xmlとしてIEに食わせるぶんには正しくUTF-8のデータとして表示してくれるのに、この拡張子をhtmlに変えた途端に文字化けということが一度だけあった(西ヨーロッパ言語として処理されていた)。同じhtmlをFlockに食わせたときは問題なかったし、もちろん無理矢理UTF-8として表示させれば崩れは消える。一度きりだったうえにいじっているうちに再現しなくなってしまったので正確な条件は不明ですが、どちらもメタタグなりJSなりの中にcharset=Shift_JISのようなコードが混じっているので、IEがなんぞ余計な気をきかせた結果混乱したのかな、と。少なくともEncode::Detectの有無という問題ではなさげです。