Hatena::ブログ(Diary)

小人さんの妄想 このページをアンテナに追加 RSSフィード Twitter

2013-08-06

Amazonに見る小さなビッグデータ

Amazonサイト上で、1冊の本のランキングを追跡すれば、書店全体の売上傾向がわかる。

そんなことを数理的に詳しく調べた研究があります。

Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)

Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)

著者である服部哲弥先生の解説ページはこちら

この"ランキング本"の帰結によると、Amazonは実はロングテールビジネスではない、とのことです。

一方、Wikipedia の「ロングテール」の項目には

「代表的なオンライン小売店の1つである「Amazon.com」(アマゾン社)を例に説明する。」

と記されているくらいですから、これはかなり意外な結果ではないでしょうか。>> wikipedia:ロングテール

果たして本当にAmazonロングテールでは無いのか、上記"ランキング本"に従って検証してみました。


"ランキング本"の調査方法では、たった1冊の本の経過を調べれば充分であるとのこと。

そこで、サンプルとして、この本のランキングを1ヶ月間調べました。

悩めるみんなの統計学入門 - 統計学で必ず押さえたい6つのキーワード

悩めるみんなの統計学入門 - 統計学で必ず押さえたい6つのキーワード

わざとらしく拙著なのですが(^_^;)、やっぱり売上げが気になるし。

約1ヶ月間の順位変動は、このようになっていました。

f:id:rikunora:20130806200522p:image

全体の順位変動をグラフにすると、こうなりました。

f:id:rikunora:20130806203040p:image

オレンジ色が全体での順位、その右側の3列は各カテゴリー内の順位です。

下はカテゴリー内の順位変動のグラフ。

f:id:rikunora:20130806200734p:image

基本的には全体と同じ動きをしていますが、まれに全体とカテゴリー内で異なる動きをすることがあります。

結果表のグレーに塗った部分に食い違いが出ています。

食い違いの理由は分かりませんが、恐らく更新タイミングが異なるなどの、Amazon内部の事情と思われます。

以下ではカテゴリー内順位は気にせず、全体の順位変動だけを元に分析を進めます。


全体のグラフを見ると、前半はグシャグシャしていますが、後半に2つの「ヨットの帆」のような形をした曲線が見られます。

この「ヨットの帆」の意味は何だろうか・・・

きっと、本が1冊売れたら、飛躍的に順位が上がるのでしょう。

"ランキング本"では、以下の仮定をしいて、順位変動が「ヨットの帆」になる理由を説明しています。

・1回売れたら、その本は順位の列の先頭=1位に跳ぶ。

・各々の本が売れる確率はジップの法則に従う。

これらの仮定を元にすると、順位変動の流体力学的極限は以下の式で表されるのだそうです。

  ¥[Xc(t)=N(1-e^{-at}+(at)^{b}¥Gamma (1-b,at))¥]

ここで、N は本の総数。"ランキング本"では 80万冊と見積もっていました。

a は最も売れていない本の注文頻度。"ランキング本"では(5冊/年)との見積り。

b は本の“平等性”を表すパラメータで、ロングテールか、ビッグヒット支配かの指標となります。

要は順位変動グラフに現れる「ヨットの帆」に上の数式をあてはめれば、“平等性”がわかる、というわけです。


調べた順位データに数式をあてはめてみたところ、以下のようになりました。

f:id:rikunora:20130806200845p:image

f:id:rikunora:20130806200931p:image

ここで、本の総数 N は、"ランキング本"の調査以降に書籍が増えていると見て、100万冊としています。

a の値は、"ランキング本"と同じ(5冊/年)としました。

結果、気になる b の値として、1つ目のヨットの帆からは b=0.892377、2つ目からは b=0.749528 を得ました。

"ランキング本"には b=0.809 という値が記されていたので、大まかには一致していると言えそうです。


さて、この b の値“平等性”の読み方なのですが、"ランキング本"によると、

・b が 1 より小さければ、ビッグヒット支配

・b が 1 より大きければ、ロングテールビジネス

というシンプルな切り分けが成立しています。

今回の結果は b < 1 なので、やはり Amazonはビッグヒット支配型であると言えます。


ところで、上の議論の中心である数式はどのようにして導かれたのか。

詳細は"ランキング本"に譲るとして、ここではシミュレーションによって「ヨットの帆」の挙動を見てみましょう。

* Amazonランキングのシミュレーション >> http://brownian.motion.ne.jp/memo/AmazonRank/

[Start!]ボタンを押すと、100回の販売試行を行います。

シミュレーションの後、各書籍の販売回数と、着目する本の順位変化のグラフが出力されます。

このシミュレーターで“平等性”の指数 b を変化させて、書籍の売上げ(販売回数)を比較しました。

f:id:rikunora:20130806201829p:image

このグラフは、本の順位x売上回数を、“平等性”の指数 b を変えて集計したものです。

販売回数は、b の値ごとにそれぞれ3回シミュレーションを行った結果の合計値です。

グラフではでこぼこして見づらいのですが、b の値が小さいほど、

左端のビッグヒット側の立ち上がりが急で、右に伸びるロングテールが細くなっています。

販売回数を上位10冊と、残りの90冊で分けてカウントすると、

 b = 0.8 のとき、上位 10% が総販売回数の 73% を占め、

 b = 1.0 のとき、上位 10% が総販売回数の 55% を占め、

 b = 1.2 のとき、上位 10% が総販売回数の 44% を占めていました。


ただ1冊の「ヨットの帆」から、書店全体の売上傾向が推し量れる。

実に鮮やかな結果です。


hirotahirota 2013/08/07 11:45 ロングテールビジネスの意味はテール部分を扱うかどうかなのに、売り上げのテール比率で判定するのは誤解としか思えない。
まさしく、wikipediaにも書かれてる誤用の例。

rikunorarikunora 2013/08/07 22:43 ここで言う「ロングテール:ビッグヒット支配」とは、
下位の売上が全体に大きく寄与するか、あるいはほとんど無視できるか、
という意味で用いています。
ロングテール「ビジネス」がどうであるか、については
いろいろあると思いますが、さしあたってここでは問題にしていません。

hirotahirota 2013/08/08 01:18 >この"ランキング本"の帰結によると、Amazonは実はロングテールビジネスではない
てのは無視ですか。

rikunorarikunora 2013/08/08 19:19 ここでのロングテール、ロングテールビジネスの意味は、"ランキング本"のコンテキストに従って用いています。
著者の服部哲弥先生のページにも以下のような記述があります。
http://web.econ.keio.ac.jp/staff/hattori/amaznj4.htm
「3. 結論: Amazon.co.jpはロングテールビジネスではない」
私がロングテール「ビジネス」と言ったのは、「テール部分を扱うかどうか」はビジネスの範疇であると考えたからです。

> しかしロングテールという言葉が普及するにつれ、元々の意味を拡張した解釈がなされており、
> 必ずしもこれらの使い方が不正解とは言えないところである。
私はこれで良いと思っていますけど。

せいたかのっぽせいたかのっぽ 2013/08/11 23:31 ロングテールなんて初めて知りました。
総数Nや、定数aの妥当性、b<1でいいのかなどあると思いますが、
(そもそもb>1になる実例あるのかな?とか、
例えば丸善などの書店のb値はAmazonより低いのかな?など
疑問もわいてきますが・・・)
1冊のランキングの情報だけから全体の推測ができることが、
純粋に面白いですね。
『悩めるみんなの統計学』引っ張り出して、読み直してました。
真ん中あたりで断念してましたが(^-^;、この土日で
一応最後まで読みました。
後半、不慣れだとぐっと難しくなりますね。
p62の分散を平均からの距離の例で説明した部分、
でもルートの中、データの数Nで割ったんでないの?とか、
p143の母集団の分散=標本の分散と見なす部分が、
直前で標本の分散が標本のデータ数に反比例すると言っている
のとで混乱しました。
でも、統計学で出てくる式の持っている意味を、分かりやすく
説明しているところが、他の本にはないこの本の持ち味に
なっているなあと、今回読み返して改めて感じましたョ!

rikunorarikunora 2013/08/13 10:16 本を読み返して頂き、ありがとうございます!
ご指摘の箇所、読み返してみると確かにその通りで、
説明に無理があると改めて思いました。
・いつの間にか1/Nが省略されている。
・直前で“別のもの”と言っているにもかかわらず、
 次には強引に同じと見なして使っている。
あと、後半に詰め込み過ぎという感想を別の方からももらっています。
反省点として、(もしあれば)今後に生かしたいと思います。

> そもそもb>1になる実例あるのかな?
私も幾つかのショップの売上げを見たことがありますが、
全ての商品が仲良く均等に売れている、といった実例に接したことがありません。

とある所に、バラエティーに富んだ色の糸を取りそろえている洋裁店がありまして、
とにかく色の種類を増やすことに力を入れていました。
実際に売れるのはほとんどが白や黒といった普通の糸なのですが、
それでも「見ていて楽しい」といった理由で全色をそろえておくのだそうです。
売上げの数字以外にも、そうした判断があるのだと感心しました。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証