Hatena::ブログ(Diary)

アスペ日記

2013-11-06

Googleのヒット件数は当てにならない

(2013/11/08: 補足を書きました。Googleのヒット件数について(続き)


Googleの検索件数は当てにならない」と言うと、多くの人は「何をいまさら」という反応かもしれません。

当てにならないことぐらいわかってるよ、と。

でも、「当てにならない」でイメージするものがどの程度かは人によって違うと思います。

結果が2倍ぐらい違ったりする、程度に思っている人もいるかもしれません。


しかし、実際はそんなレベルでの話ではありません。

本当は50件なのに500,000件と返ってくる」ようなことも珍しくありません。


たとえば、ツイッターで見たネタなのですが、"無い内定式" というキーワードで検索してみます。



f:id:takeda25:20131106004134p:image


267,000件。

多いですね。


ここで、10ページ目をクリックすると、次のようになります。


f:id:takeda25:20131106004135p:image


「59 件中 6 ページ目」*1

一気に4桁も減ってしまいました。

どちらが本当の数字に近いのでしょうか。


今回この件について書こうと思ったのは、最近ツイッターで、言語系の大学院生の方が次のようなことをつぶやいていたことがあったからです。


“뺏아서”848,000件なのに対して“뺏어서”345,000件。


ハングルなので違いがわかりにくいですが、「後者が規範的な形で、前者は非規範的な形なのに、前者のほうが数が多い」という文脈でした。


これを見てちょっとおかしいなと思い、ツイッター検索をしてみました。

すると、85万件のはずの前者のほうが、35万件のはずの後者よりもまばらです。


なぜこういうことが起きるのでしょうか。


一番の理由は、検索エンジンは「最適な検索結果を返す」ためのものであって「正確なヒット件数を返す」ことは目的としていないというものです。*2



検索エンジンは「最適な検索結果を返す」ことを目的に最適化されているので、ヒット件数はどうしても二の次になります。

ユーザが正確な件数を求めているなら、それも頑張って計算をするところでしょうが、実際のところはあまり求められていないようです。

その証拠に、モバイル版の Google 検索では件数の表示をやめています

それでユーザーの不満の声が世間に満ちているということもないようです。


そういうわけで、検索のヒット件数は非常に当てにならない(数万倍のオーダーで違う結果が返ってくる)ため、ある表現がどれだけ使われているか、また表現Aと表現Bのどちらがよく使われているかといった指標にはなりません


じゃあ、どうすればいいか。

上で書いたようなツイッター検索は手軽でいいのですが、これはあまりにも層が偏っている(若い層が多いなど)のではないかという懸念があります。

そこで私は、件数の多い少ないを知りたいときは、無関係なキーワードと一緒に検索ということをよくしています。


検索件数が当てにならないというのは検索結果が多い場合の話で、すべての結果が返されているときの件数は比較的正確なものになります。

上の「無い内定式」の検索で、ページを進めると数が急減したのは、すべての結果を取得して件数が判明したことによるものです。


表現Aと表現Bのどちらがどれくらい使われているかを知りたいとき、両方について同じように検索結果が減らすことができれば、平等に比較ができます。

その方法として、無関係な単語(リンゴでもミカンでも何でもいいのですが)と一緒に検索するというものが考えられるのですが、まったく無関係なものを選ぶというのも意外と難しいので、私は適当な数字を使うということをよくしています。

上の "뺏아서", "뺏어서" の場合、たとえば "26023" という数字と一緒に検索するとそれぞれ 4件と 19件となり、ツイッター検索の結果に近いものとなります。


この方法は、もちろん日本語にも使えます。

たとえば、「見当がつかない」と「検討がつかない」で、どちらがどれだけ使われているかを知りたいとします。

普通に調べると、それぞれ現時点で5,710,000件と2,700,000件です。


f:id:takeda25:20131106004413p:image

f:id:takeda25:20131106004414p:image


けっこう後者も健闘しているように見えて、いよいよ日本語も終わりかという気分になりそうなところですが、上で書いたようにこの数字は当てになりません。

そこで、適当な数字 "21163" と一緒に検索してみます。

(検索結果は最後のページまで見ます)

すると、次のようになります。


f:id:takeda25:20131106004415p:image

f:id:takeda25:20131106005926p:image


29:4 と、まだまだ日本語も捨てたものじゃないという感じですね。

(ただ、ツイッター検索では拮抗しているので、ツイッターのユーザー層ではすでに同じぐらい使われているということかもしれません)


ところで、日本語特有の注意点としては、1000以下の数字を使うと2chやそのまとめサイトが大量にヒットするので、件数は減らないわ結果は偏るわであんまりうれしくないことになってしまったりします。

そういうときは、適当な地名などを使ったりすることもあります。


ここで書いたような方法はバッドノウハウのようなもので、あまりきちんとした場に出せるようなものではないのですが、日本語や外国語の使用状況について直感を裏付けたりする程度には使えると思います。


(ところで、すごくどうでもいい話なのですが、「検索エンジンはなぜ見つけるのか」というのは変なタイトルのように思えます。なくした財布を見つけた人がいたとして、その人に「あなたはなぜ財布を見つけるの?」とか聞いたら、かなり哲学的な感じがしますよね。「検索エンジンはどうやって見つけるのか」のほうがいいと思うのですが、「プログラムはなぜ動くのか」のようなものに無理やり合わせたのでしょう。)

*1:重複が除外された結果のページなので、「再検索」をクリックすると増えますが、それでも最後のページまで見るとやはり数百件しかありません。

*2:この記事も、もちろん Google が良くないという話ではありません。私も普段検索に Google を使っています。

kuroyulikuroyuli 2013/11/07 08:56 うわあ平気で「用語の確からしさの比較」に使ってたわあ。
>ここで、10ページ目をクリックすると、次のようになります。 ⇐これの多用で解決を図ることは出来ないんだろうか?

chibiochibio 2013/11/07 13:01 すみません。どうして数字を一緒に検索するといいのですか。1000以下の数字だと2chなどがヒットするのはなぜですか?

demodemodattedemodemodatte 2013/11/07 13:41 レス番号がヒットするから

chibiochibio 2013/11/07 22:18 なるほど、ありがとうございます。もう一つお聞きしてもいいですか?無関係な単語を一緒に検索すると検索結果を減らせるのはなぜですか。その単語がまったくひっかからなければ、結果がゼロになってしまうのではないですか?

chibiochibio 2013/11/07 22:38 たびたびすみません。前の質問の続きですが、特に1001以上の数字が、キーワードと一緒に検索にヒットする確率は、あまりないように思えるのですが。プログラマさんのブログにこんな素人的なことを聞いてしまってすみません。

lazydog1lazydog1 2014/01/14 14:40 もう少し調べてから記事を書いて頂けないでしょうか。これでは単なる予測したヒット数、あるいは偽のヒット数であると誤解されかねません。

検索の最終ページまで行くと、

>最も的確な検索結果を表示するために、上の 53 件と似たページは除外されています。
>検索結果をすべて表示するには、ここから再検索してください。

と出てきます。そのとき、検索ヒット数も激減しています。

しかし再検索すると、最初に表示されたヒット数になります。つまり、似たページも含めたのが、最初に表示される検索ヒット数なんですよ。

似たページの要不要、どちらが欲しいかは、検索したユーザ次第ですが、統計的に問題が出そうなほどヒット件数を激減させては、どれくらいあるのかを調べる意味がなくなってしまいかねません。

lazydog1lazydog1 2014/01/14 14:40 もう少し調べてから記事を書いて頂けないでしょうか。これでは単なる予測したヒット数、あるいは偽のヒット数であると誤解されかねません。

検索の最終ページまで行くと、

>最も的確な検索結果を表示するために、上の 53 件と似たページは除外されています。
>検索結果をすべて表示するには、ここから再検索してください。

と出てきます。そのとき、検索ヒット数も激減しています。

しかし再検索すると、最初に表示されたヒット数になります。つまり、似たページも含めたのが、最初に表示される検索ヒット数なんですよ。

似たページの要不要、どちらが欲しいかは、検索したユーザ次第ですが、統計的に問題が出そうなほどヒット件数を激減させては、どれくらいあるのかを調べる意味がなくなってしまいかねません。

lazydog1lazydog1 2014/01/14 14:51 ただ「"無い内定式"」は再検索して、最終ページまで行くと、やはり表示されるヒット数が激減します。ダブルクォーテーションを外して「無い内定式」で検索すると、最初に提示される検索ヒット数が「"無い内定式"」より少なく出ることが分かります。そこを詳しくは説明しませんが、仰る方法でそのことが回避できるのかどうか、よくお調べになる必要があるかと思います。

lazydog1lazydog1 2014/01/14 14:52 見直すと、最初の投稿がダブっています。エラーが出たので、何か操作ミスをしてしまったようです。大変申し訳ありません。

熱田熱田 2014/10/13 20:36  検索件数は本当に意味がなくなってしまいました。大刀+特殊鋼で大同特殊鋼が検索されるとは、文化的後退を意味するものではないでしょうか。

JamesJames 2014/12/19 06:45 初投稿で恐縮ですが単純な質問を1つ
GoogleやYahoo検索数とそのタレントの人気度や関心度とは比例するんでしょうか?
一概に【検索数が下がる=人気や関心度が下がる】と見ていいんでしょうか

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証