Plaggerで取ってきたインプレスとかasahi.comとかのフィードが文字化けする件

これはPlaggerが悪いんではなく、IE文字コード認識(と、もしかするとインプレスやらasahi.comやらのHTMLの書き方)のせいっぽい。

global:
  timezone: Asia/Tokyo

plugins:
  - module: Subscription::Config
    config:
      feed:
        - url: http://internet.watch.impress.co.jp/cda/rss/internet.rdf

  - module: Filter::EntryFullText
    config:
      store_html_on_failure: 1

  - module: Publish::Feed
    config:
      format: RSS
      dir: c:/plagger
      filename: test.xml

のようなyamlを食わせて試してみたんですが、xmlとしてIEに食わせるぶんには正しくUTF-8のデータとして表示してくれるのに、この拡張子をhtmlに変えた途端に文字化けということが一度だけあった(西ヨーロッパ言語として処理されていた)。同じhtmlをFlockに食わせたときは問題なかったし、もちろん無理矢理UTF-8として表示させれば崩れは消える。一度きりだったうえにいじっているうちに再現しなくなってしまったので正確な条件は不明ですが、どちらもメタタグなりJSなりの中にcharset=Shift_JISのようなコードが混じっているので、IEがなんぞ余計な気をきかせた結果混乱したのかな、と。少なくともEncode::Detectの有無という問題ではなさげです。