Hatena::ブログ(Diary)

Unchained Life RSSフィード

2009-03-15

yazztter(yet another buzztter)をつくりました

Twitterにおいて、今ホットなキーワードをおしえてくれるボット、yazztterを作りました。

http://twitter.com/yazztter

背景

前からこんなのをちょっと作ってみたかったのというのと、ちょうどチームラボのアルゴリズムコンテストというものが開かれていたので、ちょうど良いタイミングだと思い、作ってみました。

http://www.team-lab.com/news/index.php?itemid=469

中身

同様のボットとしてbuzztter(http://twitter.com/buzztter)がありますが、ホットなキーワードを導出するための方法が異なっています。

yazztterでは、東京工業大学の藤木さんたちが提案した以下の手法の一部を用いています。

http://www.lr.pi.titech.ac.jp/blogwatcher/paper/NL-160-13.pdf

これはKleinbergの提案したburst検出手法を拡張したもので、各documentの出現間隔に着目した手法です。

Twitterにおいては、頻繁に出現する単語とそうでない単語がありますが、それらが日常的に出現する間隔を考慮して、日常より頻繁に出てくるようであればより大きなスコアを与える、というようなことを行っています。

実装がまだ雑なので、期待通りの結果を出してくれないことがままありますが大目に見てください。

最後に

Twitterのデータ(日本語のPublic Timeline)は@penguinanaさんのtwitter検索を利用しています。ありがとうございます。

http://pcod.no-ip.org/yats/public_timeline

またid:darashiさんによるbuzztterの解説はとても参考になりました。

http://d.hatena.ne.jp/darashi/20071106/1194365071

アイコン画像は以下のページのものを使用させていただきました。

http://sky.geocities.jp/hoopmasa137/page005.html

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証