Hatena::ブログ(Diary)

nazonoDiary

2005-02-11 金

Text::Folksonomies

| 17:24 | Text::Folksonomiesを含むブックマーク Text::Folksonomiesのブックマークコメント

http://search.cpan.org/~sri/Text-Folksonomies-0.01/Folksonomies.pm

$text = q/test product 'foo bar' red 'lala yada' "hello you" green/;

こんなのをうまく分割してくれる。うーん、思うんだけど、タグの入力画面って縦に細い textarea 折り返しなし、じゃダメなのかな?で、1行を一つの単語として扱うの。

←こんなの(はてなダイアリーでは wrap=off が効かないみたい(汗))

はてなブックマーク

17:23 | はてなブックマークを含むブックマーク はてなブックマークのブックマークコメント

http://b.hatena.ne.jp/

おお、自動でキーワードを取得するのですね。自動で特徴的なキーワードを抽出するというのはこの手のキーワード入力系(ふぉくそのみー?たぎんぐ?)では必要だと思う。でChasenとかで形態素解析して…と精度の悪い方法で四苦八苦するわけだけど、はてなの場合はてなダイアリーキーワードという形で「重要と思われるキーワード」の人力入力で精査されたかなり高精度のリストを持っているからいろいろ便利。

でもすぐに編集追加削除したくなる…。こういう載ってページ中に含まれていないキーワードで分類したいよね。例えば「Yahoo!」を「検索サイト」とタグ付けするのもアリだと思し「ポータルサイト」「大手」とかタグ付けるのもアリだと思う。でも、本文中のキーワードだと、それがない。これだと普通の全文検索でも良さそうなんだ…

それに「本文中のキーワード」だと類似語は別語として扱われるから、串刺し検索してもおもしろさが薄いかも。(ちゃんとした制作者が作っているページは、統語がよくされていて、つまり単語に揺らぎがない。ということは「ブックマーク」という単語ではヒットするページも「Bookmark」「お気に入り」ではヒットしなかったりする)これはまあはてなダイアリーキーワードの「名前≒ID」という根本的な仕様の問題なんだけど…

あと、はてなブックマークがキーワードを抽出している「本文」ってどんなアルゴリズムで判定しているんだろう。適当にいくつか入れてみたけど、本文の真ん中の引用部分とかが抜き出されたりする場合もあって、よく分からない。こういう「操作できない感」ってのもイライラするかな…

MMが自動キーワード抽出してくれればいいのに…>はてなダイアリーキーワードAPIで是非!(;´Д`)フカガタカスギマス

bmpbmp 2005/02/12 18:56 ああ、俺もそう思うなぁ(笑)APIで
ってか、MMもAPI化して欲しかったりする(;´Д`)

nazokingnazoking 2005/02/13 15:36 僕もMMに放り込むAPIが欲しいです

nazokingnazoking 2005/02/13 15:38 isinaoさんのメモに「自動キーワード提示やってみようかな」みたいなことが!でもはてなダイアリーキーワードAPIはパスらしいです