AOL Diary は Autopagerize 泣かせ

http://diary.jp.aol.com/Autopagerize 泣かせだ。

これとかね

Autopagerizeについて教えてください。

url: 'http://diary.jp.aol.com/(?:applet/)?juicyfruits/',
nextLink: '//div[@id="mainbox"]/p[@class="item"]/a[last()]',
pageElement: '//div[@id="mainbox"]/div[@class="section"]',
exampleUrl: 'http://diary.jp.aol.com/juicyfruits/',

このSITEINFOをちゃんと動くようにしたいんですが、どうすれば良いのでしょう。

Autopagerizeについて教えてください。 url: 'http://diary.jp.a… - 人力検索はてな

1ページ目と2ページ目でURLが変ってしまうんだよ。urlがイロイロ変わるやつはダメだなあ。イマイチ。

センネン画報は好きだけど AOL Diary はAutopagerize フレンドリーじゃないってだけでもうキライだ。

http://diary.jp.aol.com/applet/juicyfruits/archive からなら上のsiteinfoでバリバリにautopagerizeが効いています。これaol diaryの仕様のせいではないでしょうか。1ページ目と2ページ目以降のurlが変わっちゃってるんですもん。

1ページ目

url : http://diary.jp.aol.com/juicyfruits/
nextlink : <a href="/applet/juicyfruits/archive?b=10">

2ページ目

url : http://diary.jp.aol.com/applet/juicyfruits/archive?b=10
nextlink : <a href="./archive?b=20">

linkが相対パスだから1ページ目のurlに2ページ目のnextlinkを繋ごうとしてるからエラーになっちゃうんだと思います。siteinfoだけでは解決できないんでわないでしょうか。

Autopagerizeについて教えてください。 url: 'http://diary.jp.a… - 人力検索はてな

本当は、nextLinkもっと簡単にできるんだけどね。

url:   http://diary.jp.aol.com/applet/
nextLink:   //a[contains(@href,"/archive?")][last()]
pageElement:   //div[@id="section02"]
exampleUrl:   http://diary.jp.aol.com/applet/juicyfruits/archive
TWWP is not World Wide Pro-Wrestling: autopagerize siteinfo

id関数(id("hoge"))がうまく機能しない場合

ページ内に同じidを持つ要素が2つ以上ある場合(あってはいけないことだが)、id関数は1つ目のidを持つ要素しか選択できない。その場合はclassなどを選択するときと同様に書くしかない。

//div[@id="hoge"]
AutoPagerize Wiki: XPath Cookbook

//div[@id="section02"] がイッパイ


追記:
AOL DiaryをAutoPagerizeる - os0x.blog で os0x 先生がなんか添削してくれていまっす。

  • Siteinfoの赤ペン
  • AutoIncrementer pluginでaddDocumentFilter

の二本立て。AutoIncrementer plugin って twitter 用のツールかと思ってた。あとでキチンと見る。
で AOL Diary ってなに? 全然構造が違うページとかあるの? tumblrみたいなかんじかなあ。
それと addDocumentFilter ってなに? addFilter なら、前に使い方を教わったんだよ。

AutoPagerize.addDocumentFilterはAutoPagerize.addFilterと少し違っていて、比較してみるとこんな感じ。

スペースアルク 検索結果のAutoPagerizeとaddDocumentFilter(addFilterとの比較) - 0x集積蔵

これもあとで見る。