サイトのクローリングにはScrappyがすごくいいかもしれない

クローリング楽しいですよね！

perlで高速にクロールしたいのであればGunghoなど使うのがいいかもしれませんが、
基本手軽にやりたいことが多いので
WWW::Mechanize+Web::Scraper
という組み合わせでクロールするのが定番でした。

しかしたまたま Scrappy を知り、
少し触ってみたところすごくいいのではないか！？と思い
記事にしてみました。*1

基本系(crawlコマンドを利用する場合)

my  $scrappy = Scrappy->new;    
$scrappy->crawl('１．クロールするルートURL',
    '２．URLにマッチするパス' => {
        '３．コンテンツにマッチするxpath or CSSセレクタ' => sub {
            my ($self, $item) = @_;
            # ４．キューに追加
            $self->queue->add($item->{href});
        }
    },
);

こんな構成になります。

まずクロールするルートを指定し、
その下にURLのパスを記述します。
あとは普通にxpathやCSS セレクタでスクレイピングすることが可能です（Web::Scraperと同じ記述が可能）。
また、自身のキューにURLをaddすることでcrawl対象のジョブキューに追加されます。
crawlはキューからURLを取り出して処理を繰り返します。

例について

SYNOPSISも理解しやすいものになっていますが、
もう少し例を増やしてみます。

例その１：はてなフォトライフから画像ぶっこぬき

ルートURL ＝ http://f.hatena.ne.jp/hotfoto

１ループ目

パスが「/hotfoto」にマッチするので１１行目の処理が実行されます。
スクレイピングでエントリURLを抜き出して、それをキューに突っ込みます。

２ループ目

キューにaddされたURLは「'/:user/:id'」にマッチするので１９行目の処理が実行されます*2
画像のURLをスクレイピングして、ローカルのtmpフォルダに画像を保存します。

例その２：はてぶのトップからperlタグをたどってエントリのリンク先からテキストのみ抽出

ルートURL ＝ http://b.hatena.ne.jp/

１ループ目

パスが「/」にマッチするので１３行目の処理が実行されます。
スクレイピングで「タグ一覧」へのURLを抜き出して、それをキューに突っ込みます。

２ループ目

パスが「/t」にマッチするので２０行目の処理が実行されます。
スクレイピングで「perlタグ」へのURLを抜き出して、それをキューに突っ込みます。

３ループ目

パスが「/t/:tag」(a) にマッチするので２８行目の処理が実行されます。
スクレイピングで「ブログエントリ」へのURLを抜き出してリンク先のテキストをprintします。
ここで新しくScrappyのインスタンスを呼び出しているのは、別サイトにリンクする可能性もあるためです。
今回の場合はScrappyである必要もないため、普通にLWPなどでgetしても良いでしょう。
スクレイピングで「次へ」リンクを抜き出して、それをキューに突っ込みます。このURLは (a) にマッチするので、「次へ」リンクがある限り再度ループします。

ドキュメント

http://search.cpan.org/~awncorp/Scrappy-0.94111610/lib/Scrappy.pm.bak
他にもいろんな機能があるのでご参照ください。
プラグイン機能もあるようですね。

いままでの知識はそのまま使えますし、なにより読みやすいのがいい！
階層構造に似たコーディングスタイルのため
あとから見たときに何をやっているのか一目瞭然です。

クローリングするときはしばらくこのモジュールを使ってみます！

*1:つまりそんなに使い込んでいない

*2:例：http://f.hatena.ne.jp/border514/20110701140005