Hatena::ブログ(Diary)

Cafe Babe RSSフィード

2005-09-30

[] 検索エンジン2005 -Webの道しるべ-(情報処理学会誌)

まあ,すでに読んでいる人は多いだろうが,情報処理学会誌の記事.この記事を企画された東工大村田剛志先生が書かれた簡単な紹介記事が次に公開されているので,今すぐ読めない人はそれを見てほしい.

http://itpro.nikkeibp.co.jp/article/NIP/20050926/221636/

また,非会員でも,これらの記事がオンラインで購入できるようである.

http://fw8.bookpark.ne.jp/cm/ipsj/search.asp?from=Magazine&flag=-1&keyword=Magazine,YM200509

これらの記事を眺めていて印象的だったのは,Yahoo! Japanの「2.Yahoo! Search Technology (YST)と,検索分野におけるYahoo! JAPANの戦略」と,MSNの「5.マイクロソフト社独自開発のMSN Search Engine」である.

これらの記事では,Yahoo! Japanが言うところのGoogleから始った第2世代のサーチエンジンの特徴というのが,すでに明らかになっており,今見るとなおさら感慨深い.というのは,第2世代が立ち上がった時には,何をどうすれば良くなる,一体検索の品質に対してどのような技術が有効なのか?が,まだ明らかになっていなかった混沌した状態だったからである.

現在すでに明らかになっているのは,次の点であろう.

  1. アンカーテキストは,与えられた検索語に対して,もっと一般的に想起されるホームページを非常に高い精度で発見するために役立つ.
  2. 検索結果の有用性を高めるためには,単にグローバルな解析ではなく,たとえば日本語で書かれた情報空間のようなものを意識する必要がある.

実は,1に関しては,特に日本国内では以前はPageRankのおかげであるという,間違った噂が広まっていた(なおPageRankは耐スパム性を高めるのに有用だが,アンカーテキストに比べると副次的である).これは,GoogleのSergey BrinがStanford University在籍時代に書いていた論文"The anatomy of a large-scale hypertextual Web search engine"ですらも,アンカーテキストを採用していると書きながら,その効果までは予想していなかった(実は,適合度を大幅に向上させるためには,ちょっとしたトリックが必要だったからかもしれないのだが)からかもしれないし,日本人はなんとなく複雑な方を好むという性質があったからかもしれない.実際に,NECでそのようなサーチエンジンが開発され華々しくデビューしたが,比較的早期にGoogleに置き換えられてしまった.この理由は簡単で,Googleのようにオフィシャルサイトが高い順位にはならなかったからである.

我々は,NECと対局的にアンカーテキストベースのODINというサーチエンジンを作り,それではオフィシャルサイトの平均順位が1.42位という良い結果を出していた.NECの発表した論文でもPageRankだけでは有用ではなく,アンカー周辺のテキストも同時に考慮する必要があるという考察が述べられていた…つまり彼らもすでに気が付いていたのである.Googleは,数編の論文を書いただけでステルスモードになってしまったので彼らの意見は表に出てこなかったが,海外でアンカーテキストの使用が注目されはじめたのは,TRECの"Homepage finding"(検索語が示唆するホームページを見つける)というタスクが実施されてからでないかと思う.

論理的に考えても,入力した検索語と無関係に計算される指標が,検索語に対する検索結果の適合性を飛躍的に高めるなんてことはありえないはずなのだが,なぜかしらないが当時はそのような雰囲気だったようであり,当時の私の同僚(現Google(笑))が意を決したように「PageRankがそんなに適合度の向上に役立っているとは思えないんですけど」と言ってきたのを思い出す.アンカーテキストリンク解析の利用に対する正しい認識がもう少し早ければ,国産サーチエンジンは現在もまだ生き延びていたのではないかと思う.

2に関しては,当初のGoogleは,日本語が扱えても,一部の検索結果の上位には海外のサイトが数多く食い込み,日本人にとってはあまり有用ではない場合があった.我々が考えていたのは,「日本向けサーチエンジンなら,日本向けを意識したWeb部分空間だけを収集すべきだ」ということで,ある種の経験則を使って,日本語ホームページと,そこから参照されている空間の,特に注目されている部分だけを収集することにした.まあ,裏を返せば,研究資金がない,人がいないので,できる限り省力化して節約しなければいけないということでもあったのだが(笑).その結果,当時は日本人向けという点では,Googleよりも全体的に高い適合度を誇っていたと思うし,実際に時々「なぜこんなに良い検索結果になるのか!」というメールを頂いていたし,公開実験を修了した後も特に大学の人達から復活して欲しいという要望を貰っていた.

なお,すでにGoogleは数年前から,この問題に対処している.たとえば,同じ検索語でユーザインタフェース言語日本語英語の両方で切り替えてみれば,検索結果が違うことがわかるはずだ.

こちらに関しては,当時の国産サーチエンジンの人達も容易にたどり着き,差別化が可能だった点だと思うので,返す返すも,アンカーテキストリンク解析という,従来の情報検索の分野にはなかった新技術に乗り遅れたのは惜しかったと思う(まあ,第一世代で成功した開発者インターネットバブルの波に乗った勝ち組で,とても周囲の人間が口出しできる状態ではなかったからかもしれない).

なお,両者の記事を読み比べると,基本的にはほぼ当時の我々と同じ結論に達しながら,Yahoo!は,買収によって保有したInktomiAllthewebAltavistaの3社の技術者としての視点から,MSNサーチエンジン開発にかなり貢献したと思われる研究者としての視点から書かれているように感じられるのが面白い.特に,MSNは,TRECとの繋がりの密接さを感じさせるものであり,Googleとはまた違った研究者の実システムに関する貢献が起こりそうである.

最後に,この特集の唯一で最大の欠点は,Googleからの記事がないことである.村田先生が前書きに書いているように断られてしまったからだが,実際にはMonika Henzingerなどは今でも学会の講演をしたり,解説記事を書いているので,そのような以前IR分野で活躍していて,Googleですでに上層部に入っている研究者に直接頼み込めばなんとかなったかもしれない.ただ,引き受けてくれたとしても,Yahoo!MSNのように,今のサーチエンジンはなぜよいのか?という一般的な話題に突っ込んでくれたとは限らないのだが(笑)

とにかく,この特集は,とかく秘密になりがちなIT企業とうまく交渉して,システムの裏にある考えやノウハウを学べるという点で貴重だ.この特集を企画し,実現してくれた村田先生感謝したい.

追記:そういえば,なぜこの匿名ブログが私の本名で検索できるのか?という疑問を見かけたが,実はこれもアンカーテキストの効果である.つまり,現在のサーチエンジンは,アンカーテキストを,それがリンクしている文書のテキストと一緒に索引付けする.そこで,誰かが私の本名でリンクしていれば,それがこのブログ中から完全に排除されていても,検索できるのである.

また,これは同時に,ある程度の表記のゆれを吸収してくれる.たとえば,「ドラえもん」の公式サイトドラえもんワールド」が,「どらえもん」でも検索できるのは,そのように間違ってリンクしている人が多いからである.この効果については,先ほどのYahoo!の記事でも言及されているが,現在のサーチエンジンは,Google「もしかして」などに代表されるように,より高度な処理をしているようである.

宮崎宮崎 2005/10/01 03:25 著者の一人です。記事の紹介ありがとうございます。アンカーテキストの方がずっと重要であるということ、で、それが世間ではなかなか理解されていない(未だにそうですね)点、まったくそのとおりですね。

> 返す返すも,アンカーテキストとリンク解析という,従来の情報検索の分野にはなかった新技術に乗り遅れたのは惜しかったと思う

私見ですが、アンカーテキストにしてもリンク分析にしても、要因がページ外にあるため、ウェブを網羅しないとパワーが発揮できないというか、網羅性が伴うことで途端にインパクトが大きくなるように思います。

逆にいうと、アンカーテキストを軽視した状態でインデックスを大きくすると、検索結果は乱れがちになる。つまりRelevancyを高める方法が見えないままインデックスを拡大するのは、かなりの冒険なのでブレーキがかかる。

> なぜかしらないが当時はそのような雰囲気だったようであり

と、まさにこのような雰囲気の中で膠着していた気がします。「たられば」ですが、当時アンカーテキストを重視したエンジンが日本から出てきていたらおもしろかったかもしれないですね。本当に。

kazamakazama 2005/10/03 01:09 コメント,どうもありがとうございます.昔MITのメディアラボのネグロポンテ所長が,日本の音声認識の研究者は純粋すぎて,認識性能を高める他の方法(例えば,ユーザに対して発話することで意図的にユーザの発話を制御するとか)に目を向けないと批判していましたが,同じようなことがあったと思います.
適合度が向上しないのに,索引サイズを大きくすべきではないというのはその通りだと思います.もう一つは,当時は大量のリクエストを処理するための分散アーキテクチャが試行錯誤で,それもボトルネックになっていたと思います.なお,ハイパーリンク構造をほぼ保ったままサンプリングするということは,経験から言うと可能だと思います.これは,Web空間の構造が,基本的に次数の相関が負(次数の多いノードに次数の少ないノードが繋がりやすい)なのと,ある種の意味を持つクラスタや密度分布が存在するからです(同じようなネットワーク特性値を持つネットワーク構造を機械的に作って可視化すると,結構違います).
なお,アンカーテキストを使ったサーチエンジンは存在していましたが,商用サーチエンジンがなかったという意味です.では,今後ともよろしくお願いします.

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

Connection: close