AOL Diary は Autopagerize 泣かせ
http://diary.jp.aol.com/ は Autopagerize 泣かせだ。
これとかね
Autopagerizeについて教えてください。
url: 'http://diary.jp.aol.com/(?:applet/)?juicyfruits/', nextLink: '//div[@id="mainbox"]/p[@class="item"]/a[last()]', pageElement: '//div[@id="mainbox"]/div[@class="section"]', exampleUrl: 'http://diary.jp.aol.com/juicyfruits/',このSITEINFOをちゃんと動くようにしたいんですが、どうすれば良いのでしょう。
Autopagerizeについて教えてください。 url: 'http://diary.jp.a… - 人力検索はてな
1ページ目と2ページ目でURLが変ってしまうんだよ。urlがイロイロ変わるやつはダメだなあ。イマイチ。
センネン画報は好きだけど AOL Diary はAutopagerize フレンドリーじゃないってだけでもうキライだ。
http://diary.jp.aol.com/applet/juicyfruits/archive からなら上のsiteinfoでバリバリにautopagerizeが効いています。これaol diaryの仕様のせいではないでしょうか。1ページ目と2ページ目以降のurlが変わっちゃってるんですもん。
1ページ目
url : http://diary.jp.aol.com/juicyfruits/ nextlink : <a href="/applet/juicyfruits/archive?b=10">2ページ目
url : http://diary.jp.aol.com/applet/juicyfruits/archive?b=10 nextlink : <a href="./archive?b=20">linkが相対パスだから1ページ目のurlに2ページ目のnextlinkを繋ごうとしてるからエラーになっちゃうんだと思います。siteinfoだけでは解決できないんでわないでしょうか。
Autopagerizeについて教えてください。 url: 'http://diary.jp.a… - 人力検索はてな
本当は、nextLinkもっと簡単にできるんだけどね。
url: http://diary.jp.aol.com/applet/ nextLink: //a[contains(@href,"/archive?")][last()] pageElement: //div[@id="section02"] exampleUrl: http://diary.jp.aol.com/applet/juicyfruits/archiveTWWP is not World Wide Pro-Wrestling: autopagerize siteinfo
AutoPagerize Wiki: XPath Cookbookid関数(id("hoge"))がうまく機能しない場合
ページ内に同じidを持つ要素が2つ以上ある場合(あってはいけないことだが)、id関数は1つ目のidを持つ要素しか選択できない。その場合はclassなどを選択するときと同様に書くしかない。
//div[@id="hoge"]
//div[@id="section02"] がイッパイ
追記:
AOL DiaryをAutoPagerizeる - os0x.blog で os0x 先生がなんか添削してくれていまっす。
- Siteinfoの赤ペン
- AutoIncrementer pluginでaddDocumentFilter
の二本立て。AutoIncrementer plugin って twitter 用のツールかと思ってた。あとでキチンと見る。
で AOL Diary ってなに? 全然構造が違うページとかあるの? tumblrみたいなかんじかなあ。
それと addDocumentFilter ってなに? addFilter なら、前に使い方を教わったんだよ。
AutoPagerize.addDocumentFilterはAutoPagerize.addFilterと少し違っていて、比較してみるとこんな感じ。
スペースアルク 検索結果のAutoPagerizeとaddDocumentFilter(addFilterとの比較) - 0x集積蔵
これもあとで見る。