twwp

about | archive
 | 

April 08, 2008

jottit.com を ldrize 化した!!!

h1からh6の見出しでldrizeするようにしてみた!paragraph んところがイマイチ冗長な気がするんだけども。まずかったらだれか直してください。

-[[jottit.com:http://jottit.com/]]
 name:		'jottit.com',
 domain:		'http://(\\w+\.|)jottit.com/',
 paragraph:	'id("content")//h1 | id("content")//h2 | id("content")//h3 | id("content")//h4 | id("content")//h5 | id("content")//h6',

siteinfoで使ってるところでは、見出しをそれぞれのsiteinfoに付けてるわけではないので、あんまし有効ではないかもしれんけど。


追記:os0x先生に添削してもらいましたー。赤ペン先生!

場合によるけど、|は非効率になりがちなので注意。

jottit.comのLDRize用XPath - 0x廃棄階層 - 統治局

XPathって「式」なんだなーというのはなんとなく感じていたのだが、書き方でパフォーマンス、変わってくるんだなー。

-[[jottit.com:http://jottit.com/]]
name:		'jottit.com',
domain:		'http://(\\w+\.|)jottit.com/',
paragraph:	'id("content")/descendant::*[self::h1 or self::h2 or self::h3 or self::h4 or self::h5 or self::h6]',

paragraph は絶対もっと良い手があるとおもっていたので確信犯なんだけど。実は一番ドキドキだったのはdomainの正規表現だったのである。あはは。

あとで、descendant::*[self::h1 or self::h2] ってやつの意味を調べる!


追記 2008-04-09 :

jottit.comはsubdomainでハイフンを使えるのでそれに対応!

-[[jottit.com:http://jottit.com/]]
 name:		'jottit.com',
 domain:		'http://([\\w\\-]+\.|)jottit.com/',
 paragraph:	'id("content")//h1 | id("content")//h2 | id("content")//h3 | id("content")//h4 | id("content")//h5 | id("content")//h6',

追記 2008-04-10 : またしてもos0xセンセーに添削されたので[\\w\\-]というふうにhyphenをescapeしました。

os0xos0x 2008/04/08 13:27 あ、domainのとこ見てなかった><
けど、特に問題はなさそうです。
あえて言えばsubdomainには-が使えるけど_は使えないとか細かいルールがあるんだけど、実用上はほとんど問題ないと思います。

taizoootaizooo 2008/04/08 13:51 ”¥¥w+”ってハイフンとかアンダーバーは含まれないんだっけ?しらべるわ、あとで!

taizoootaizooo 2008/04/09 15:00 >underscoreをアンダーバーという和製英語で(ry
カタカナをつかったオレの負けです。ふん!
で、なにで書けばよかった?漢字?それともunicode番号?jis番号?それとも数値文字参照をお望みでらっしゃいます?:p

taizoootaizooo 2008/04/09 15:26 アンダーバー って数値文字参照貼ったけどいみなかった。

taizoootaizooo 2008/04/09 17:16 _

taizoootaizooo 2008/04/09 17:17 _ って数値文字参照貼ったけどいみなかった。

os0xos0x 2008/04/09 21:20 otsune氏が言ってるのは、アンダーバーじゃなくて、underscoreだよって話。
http://www.otsune.com/diary/2005/04/20/6.html

で、domainの正規表現だけど、[¥¥w-]は良くないです。-はa-zみたいに使える特殊な意味を持つキャラクターなので、¥¥-にしてエスケープしてあげましょう。
で、SITEINFOのほうは直しておきました。

 |