PyQueryでスクレイピング練習
pyqueryはjQueryみたいにCSS SelecterでDOMとれるよ、ってやつ
どれも pip(or easy_install) から
pip install lxml pip install pyquery
ubuntuだと apt-get install python-lxml しないとlxml入らなかった
#!/opt/local/bin/python # -*- encoding:utf-8 -*- from pyquery import PyQuery as pq import urllib2 url = "http://b.hatena.ne.jp/hotentry" opener = urllib2.build_opener() opener.addheaders = [('User-agent', 'mozilla 3.6')] #携帯ページに飛ばされないようUA偽装 txt = opener.open(url).read() d = pq(txt) for i in d(".entry-body h3 a:not(.domain)"): print i.text
sayamako:mizchi%[~/scripts] python pyq.py 「仕事がデキる人」と「仕事をする人」の違いと習慣 - Keep Crazy;sh... かつてネトゲで数十人を率いた妻の「マネジメント論」 - chocontaの... WindowsからMacに乗り換えた人に伝えたい、入れておくと幸せになれる... 1年で3回の資金調達(総額$10M)を成功させたわずか5枚のプレゼ... ...