PyQueryでスクレイピング練習

pyqueryはjQueryみたいにCSS SelecterでDOMとれるよ、ってやつ

どれも pip(or easy_install) から

pip install lxml
pip install pyquery

ubuntuだと apt-get install python-lxml しないとlxml入らなかった


はてなホッテントリの記事一覧をとってくる

#!/opt/local/bin/python
# -*- encoding:utf-8 -*-
from pyquery import PyQuery as pq
import urllib2
url = "http://b.hatena.ne.jp/hotentry"
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'mozilla 3.6')] #携帯ページに飛ばされないようUA偽装
txt = opener.open(url).read()
d = pq(txt)

for i in d(".entry-body h3 a:not(.domain)"):
        print i.text
sayamako:mizchi%[~/scripts] python pyq.py
「仕事がデキる人」と「仕事をする人」の違いと習慣 - Keep Crazy;sh...
かつてネトゲで数十人を率いた妻の「マネジメント論」 - chocontaの...
WindowsからMacに乗り換えた人に伝えたい、入れておくと幸せになれる...
1年で3回の資金調達(総額$10M)を成功させたわずか5枚のプレゼ...
...