はてなさん周りの実験用ページです.
2008-01-22
舞浜サーチ
舞浜サーチ(Maihama Search) は,はてなブックマークに登録したページを全文検索できるようにするFirefoxの拡張機能です.
はてなブックマークでは登録したページの概要文あるいはタグからしか検索できませんが,舞浜サーチを使えば全文検索できるようになります.
特徴は次のとおり.
(解析にはYahoo!の日本語形態素解析Webサービスを利用)
初期インデックスの作成
(これはスキップしてあとで作成しても構いません.)
アドオンのメニュー
あるいはメニューバーから,設定(Config...)を選択してください.
はてなブックマークからこれまでに登録したブックマークリストを取得し,インデックスを作成します.
IDとpasswordを入れて,Create database ボタンを押して下さい.
(ブックマーク情報の取得にははてなブックマークAtomAPIを利用しています.)
1ページごとにYahoo!の日本語形態素解析Webサービスへ問い合わせ,名詞を抽出します.このWebサービスには利用制限があり,1回の問い合わせの最大サイズが100KBになっています.現在のところ,この最大サイズを超える部分は切り捨てています.
また,形態素解析サービスでは複合名詞を教えてくれませんが,解析結果と元の入力文における名詞の隣接関係をもとに複合名詞を認識する処理をしています.
結構時間が掛かりますので,お茶でも飲んでお待ち下さい.手元では50件弱でしか試してないので,ブックマーク数が多いとどうなるかあまり自信ないです.
Cancel ボタンを押せば,中止できます.
作成したデータベースを削除する場合は,Reset Maihama ボタンを押して下さい.
ブックマークの追加
メニューバーから Bookmark This Page を選ぶか,ツールバーの Maihama ボタンを押すと,現在開いているページをはてなブックマークに追加すると同時に,ページの内容が検索用インデックスに追加されます.
"B"と書かれたヘックスがMaihamaボタンです.
追加時にはてなブックマークの追加ダイアログをポップアップするかどうかは,Maihama Searchの設定画面のチェックボックスで選んでください.
なお,検索用インデックスの追加タイミングはMaihamaボタンを押した直後ですので,はてブのダイアログ上でキャンセルしたページもインデックスには追加されます.
検索
サイドバーの Maihama Search を開いてください.
入力フィールドにスペース区切りで語を入れると,インクリメンタル検索します.デフォルトでは AND 検索ですが,Phrase にチェックを入れるとフレーズ検索します.フレーズ検索はクエリが語順通りに現れるページを探します.この場合もっとも語同士の距離の短いものが上位に来ます.Maihama Searchのフレーズ検索について詳しくは,http://d.hatena.ne.jp/positlog/20080120 参照,リストアップされた結果をクリックすると,タブでページが開きます.
そのほか
頒布はGPL2.0で.
SQLiteとFirefoxアドオンまわりの勉強用につくりました.1週間くらい.検索アルゴリズムについてはもっといいのがあるんじゃないかしら? インデックスサイズも大きいと思いますが,個人用サーチエンジンの規模なのでそんな酷くはならないだろうということでお許しを.
JavaScriptでのWSSE認証はこちらのコードをお借りしました.
http://rvr.typepad.com/wind/2005/07/wsse_for_javasc.html
あとSQLite Manager 無しでは作れませんでした.ありがたや.
舞浜というのはあの舞浜ですが,MY HAtena bookMArk Search Engine powered by Kaminagi の略でもあります ;-)
インストール
こちらからどうぞ.Firefox2.0+
http://positlog.org/positlog.cgi?load=071212pG&id=spr5lqpk






