Hatena::ブログ(Diary)

Atzy->getLog() このページをアンテナに追加 RSSフィード

2012年01月17日

[] 優良インターネット企業ランキング  優良インターネット企業ランキングを含むブックマーク

大量データの分析をすることになりました。

しかし、実際のところ、私はデータの分析などというものは、大学の実験以来全くやっておりません。教科書レベルでは一応習ったはず…。

例えば、クラスタリングとか、主成分といったものを、どうやって出すのだったか?ちょっと、練習がてらに分析をして見ます。今日は主成分分析から。

データを集める

データは、とりあえずモノホンのものをここで紹介するわけにはいかないので、公開されているものにします。東証一部の「サービス」「情報・通信」区分にある企業のデータを適当に集めてみます。

社員数と、年齢、年収、時価総額、PERあたりにしておきます。

コード社名社員数(単独)社員数(連結)平均年齢平均年収時価総額PER
1954日本工営(株)1766279543.770502383118.14
2120(株)ネクスト51753531.857205631-
2127(株)日本M&Aセンター9910135.6103102593921.6
2128(株)ノバレーゼ49153430.3385053804.95
以下略

主成分分析

主成分分析自体は、数学的なやり方はとっくの昔に忘れましたが、ソフトにかけるだけで可能ですので、えいやとかけてしまいます。

Excelなどでも(ソフトを使えば)可能ですが、以下のサイトでやってしまうという手もあります。

http://hoxom-hist.appspot.com/pca.html

ここの左側のテキストエリアにExcelからコピッたデータ(つまり、タブ区切りデータ)を貼り付けるだけでOK。

f:id:atzy:20120117104814p:image

すると、右側に、そのデータを解釈した結果が自動的に出てきます。(赤くなっているところが、ヘッダとして認識された部分です。)

そして、「Execute PCA」というボタンを押すと、主成分分析を実行してくれます。

その結果

結局主成分分析というのは、何なのかということです。

例えば、人間について大量のデータがあったとします。「身長」「体重」「座高」…といったものです。体重が大きければ「太っている」のかもしれませんが、しかし、身長150センチの人と200センチの人を比べるならば、200センチの人の方が体重は普通は重くなります。とはいえ太っているわけではありません。

また、「身長」と「座高」はたいていの場合相関したデータになりますから、あまり二つのデータがある意味がありません。

したがって、大量のデータから「体格の大きさ」「肥満度」といった「成分」を抽出したいというのがこの主成分分析です。PCA、Principal Component Analisysといいます。

仮に、二つの成分「体格の大きさ」「肥満度」だけで、データのほとんどが説明できるならば、他の成分はあまり考えなくてもよい、ということです。

適当な例ですが、例えば次のように変換できればよいのです。

元データ
氏名身長体重座高胸囲
田中1908510097
佐藤160808290
渡邉168458678
変換後データ
氏名主成分1(体格)主成分2(肥満度)主成分3主成分4
田中2.00.4
佐藤0.51.2
渡邉-0.4-1.0

主成分分析実行

先ほどの、PCAの結果を見てみます。

f:id:atzy:20120117104858p:image

Scree Graph

一番左にあるのが、Scree Graphです。これは、PC1からPC6という主成分のうち、各成分が持つ固有値を示しますが、もっと簡単に言えば、その主成分が説明できている割合を示します。

今回のデータの場合は、比較的元データの独立性が高かったらしく、主成分1(PC1)で34%ほど、主成分2(PC2)で22%ほど、主成分3(PC3)で17%ほどを説明しています。

仮にそうではなく、PC1とPC2をあわせて90%ほどを説明可能だったとすると、「そもそもPC3〜PC6は見なくていいんじゃね?」となります。それは、データの独立性が低く、(身長と座高のように)元々似た傾向を持つデータが存在したということです。

また、ここで「そもそもPC1って何ですか?」というものが説明されるわけではありません。それは人間が解釈するわけです。

Score Plot

その右側に三つの分布図があります。

これは、各データ(企業)について、PC1とPC2が持つ成分について、プロットしたものです。

一番左がPC1とPC2でプロットしたものであり、これでデータの55.9%を説明できます。それから順番にPC1とPC3、PC2とPC3がプロットされています。

こう見ると、PC1とPC2は、何となく比例っぽい関係にありますが、一部の特異点があるということが分かります。

データの解釈

さて、ここまでは誰でもできますが、このあと、どのように解釈を実施していくかというところが重要です。

「Download PCA Result」というボタンを押すと、結果をExcelで見ることができます。

主成分の「意味」

その中で、各主成分と元データの関係が存在します。

各主成分に元データがどのように寄与しているかを見るものです。それっぽい言葉を使うならば、「固有ベクトル」ということですね。

PC1PC2PC3PC4PC5PC6
単独社員数0.422163605-0.2748956247.00E-040.7404333950.414250532-0.162372046
連結社員数0.583691307-0.160602596-0.055253869-0.323657366-0.367745667-0.624873834
平均年齢0.2151269270.643274299-0.2003835480.44430806-0.5326169070.136655016
平均年収0.2408733790.6758675690.087253701-0.2677515510.611778477-0.177780873
時価総額0.608836939-0.157428258-0.03612667-0.2653058220.0351218780.729114574
PER-0.078104744-0.057067951-0.973588522-0.0866981690.184316034-0.035767521

これをじっと見つめると、何となく次のようなことが分かります。

  • PC1は、全体の数の大きさを示している→大企業
  • PC2は、社員の年齢と年収が効いている→太っ腹企業
  • PC3は、PERが低いと大きくなる→高利益率企業

PC3については、ほとんどPERしか効いておりませんので、それならば「最初からPERを見ればいいじゃん」ということになるので、あまり意味がありません。つまり、PERは独立性が高かったということです。(あまり利益と年収は直結しないわけだ。)

しかし、PC1とPC2について言えば、年齢や年収にはPC1も効いています。すなわち、「大企業はそもそも平均年齢も平均年収も高い」ということです。しかし、その上で、その「大企業分の寄与」を取り除いてもなおかつ年齢や年収が割に高いところが、PC2が高くなるわけです。

決め付けを発展させる

このように勝手にラベリングしたらば、あとはそのラベルを勝手に応用します。

例えば、今回のデータにおいて、PC2が大きな企業というのは「太っ腹」ということが言えます。逆に小さい場合は、「ケチ」といえます。

その勝手な決め付けによる192社のランキングは次のようになります。なお、ここで、「年収」とともに存在した「年齢」というデータはあまり他人の興味を引きにくいので勝手に取っ払っておきましょう。

社名PC2平均年収(千円)
スクウェア・エニックスホールディングス5.2170374721680
TBSホールディングス3.81179521913380
(株)スカパーJSATホールディングス3.76599776413710
(株)フジ・メディアホールディングス3.25037705814420
(株)テレビ東京ホールディングス2.84526736112340
日本テレビ放送網(株)2.53544939213330
(株)角川グループホールディングス2.51917656310650
(株)ファルコSDホールディングス2.4519499456760
(株)テレビ朝日2.43769540512750
(株)学研ホールディングス2.1268557058890
PGMホールディングス(株)1.891939727970
(株)博報堂DYホールディングス1.79284617310170
みらかホールディングス(株)1.7601173899410
(株)WOWOW1.75091702410080
(株)東急コミュニティー1.6445806245830
(株)JBISホールディングス1.6118063035580
(株)三菱総合研究所1.5626671739560
ITホールディングス(株)1.5388722468120
(株)ベネッセホールディングス1.48907360710260
東映(株)1.4589245158570
東京都競馬(株)1.449410517210
(株)ダスキン1.1541894658430
(株)日本M&Aセンター1.14000914310310
東海観光(株)1.1054612573340
スバル興業(株)1.0906076196040
(株)ドリームインキュベータ1.05949616810490
(株)建設技術研究所1.0473026747810
(株)乃村工藝社1.0192443947430
日本工営(株)1.0123437067050
JBCCホールディングス(株)0.9891473517610
東宝(株)0.9846124748610
(株)オリエンタルランド0.9517986068140
松竹(株)0.8776079817570
テンプホールディングス(株)0.8495624127360
ケネディクス(株)0.8360638088450
(株)電通0.81662316611630
(株)アサツー ディ・ケイ0.79599367590
日本オラクル(株)0.7761118319200
NECモバイリング(株)0.7743291337010
日本コロムビア(株)0.7740860286660
(株)イチネンホールディングス0.6788537616680
(株)野村総合研究所0.6546040610500
(株)インテージ0.6512742527690
日本ユニシス(株)0.6488100197610
日本管財(株)0.5692526863290
ISID0.5650575117910
(株)リソー教育0.5264786326350
兼松エレクトロニクス(株)0.5235939546740
(株)東京ドーム0.4851600026210
(株)共立メンテナンス0.4540503913760
パナソニック電工IS(株)0.4499331797230
(株)SRAホールディングス0.4454793676280
イオンディライト(株)0.4400087484760
(株)昭文社0.3549323156150
新日鉄ソリューションズ(株)0.342619067940
(株)よみうりランド0.3247951965380
応用地質(株)0.320892475130
(株)インプレスホールディングス0.3185329916270
福井コンピュータ(株)0.3151317515640
(株)アイティフォー0.3089194076100
(株)ビー・エム・エル0.2966664115720
(株)ゼンリン0.2940724025580
サイバネットシステム(株)0.2792253356090
ソネットエンタテインメント(株)0.2790413567250
NECネッツエスアイ(株)0.2786814516930
常磐興産(株)0.2758745924190
NECフィールディング(株)0.2756099756830
(株)丹青社0.2745464945930
エイベックス・グループHD(株)0.2725558456880
(株)アイネス0.2637931176390
ネットワンシステムズ(株)0.2611915467110
東京テアトル(株)0.242058895160
(株)ダイセキ0.2310159955900
(株)ティーガイア0.2156675466500
藤田観光(株)0.1862281075510
エムスリー(株)0.1769491817800
ぴあ(株)0.1656943325670
コーエーテクモホールディングス(株)0.1454020746150
(株)ホリプロ0.1325486695880
(株)シーエーシー0.1088595355980
リゾートソリューション(株)0.1071550825190
(株)もしもしホットライン0.0967698446500
SCSK(株)0.0890956087220
(株)フェイス0.0696338346560
(株)エックスネット0.0386379157480
(株)ダイオーズ0.0243039215690
トレンドマイクロ(株)0.0068045986900
(株)ベリサーブ0.0042484195720
(株)アルゴグラフィックス-0.0132583115660
TAC(株)-0.032226435770
(株)シーイーシー-0.0574731665680
(株)アミューズ-0.1076797325860
(株)パソナグループ-0.1093469675040
伊藤忠テクノソリューションズ(株)-0.1197852977180
NSW-0.1380573945490
コナミ(株)-0.1563973436780
(株)インターネットイニシアティブ-0.1654323816700
(株)イオンファンタジー-0.1690551924300
(株)朝日ネット-0.1908945586070
(株)ウェザーニューズ-0.1933703125610
日立ビジネスソリューション(株)-0.1958981265810
日本空調サービス(株)-0.2052579075370
イー・アクセス(株)-0.2297830896580
(株)オービック-0.2414563567060
(株)シンプレクス・ホールディングス-0.2765297077370
(株)ユー・エス・エス-0.2877215065460
フューチャーアーキテクト(株)-0.3027896816760
(株)葵プロモーション-0.3031009635930
(株)トーカイ-0.3264800544840
(株)TKC-0.327026775970
ソフトバンク・テクノロジー(株)-0.3375116255940
(株)大塚商会-0.3410934197340
(株)コア-0.3446980885290
(株)CIJ-0.393460295060
(株)ルネサンス-0.4045173485330
(株)サニックス-0.4056664124410
(株)白洋舎-0.410837964280
(株)アイネット-0.4108871314880
(株)テー・オー・ダブリュー-0.4325308925940
ソースネクスト(株)-0.4365684995960
TDCソフトウェアエンジニアリング-0.4419334645750
(株)船井総合研究所-0.4426542575690
(株)ソフトクリエイト-0.450367145850
KNT-0.4589910724690
(株)カカクコム-0.4639853156390
(株)ウェアハウス-0.4718867845750
シミックホールディングス(株)-0.4825347945970
セントラルスポーツ(株)-0.5224733984980
(株)アコーディア・ゴルフ-0.5270168034150
(株)カナモト-0.5295709634660
(株)カプコン-0.5309410465710
ワタベウェディング(株)-0.5413284124970
(株)NSD-0.5518530455740
KDDI(株)-0.5728629298830
グリー(株)-0.5894706927430
(株)東計電算-0.5923360094950
ソフトブレーン(株)-0.6138803775370
(株)アグレックス-0.6289996345190
(株)ナック-0.6298085175090
(株)クレスコ-0.646594345300
(株)明光ネットワークジャパン-0.6729108315170
(株)DTS-0.6862089555680
(株)ネクスト-0.6945034215720
GMOインターネット(株)-0.699516475480
(株)ディー・エヌ・エー-0.7232480096260
クックパッド(株)-0.7430684826400
サイボウズ(株)-0.7875579955390
(株)新日本科学-0.7934616034480
(株)一休-0.8059458085670
(株)光通信-0.8096779715530
CSP-0.8333057484310
(株)ぐるなび-0.8583431575100
(株)マクロミル-0.862267395470
(株)システナ-0.8913232544980
ジャパンベストレスキューシステム(株)-0.8977274094280
(株)アルファシステムズ-0.9015988365360
(株)リンクアンドモチベーション-0.9180786635560
(株)メイテック-0.9363493335290
(株)東京個別指導学院-0.9605276884590
(株)ジャステック-0.9796826845100
ヤフー(株)-1.0081049446460
(株)オービックビジネスコンサルタント-1.0233527075320
(株)エス・エム・エス-1.0508215715200
(株)ラウンドワン-1.0590038565230
アイ・ティー・シーネットワーク(株)-1.061183835140
(株)進学会-1.1481049634380
リゾートトラスト(株)-1.1492889354740
(株)デジタルハーツ-1.1624716033830
(株)ザッパラス-1.1741803154790
富士ソフト(株)-1.2937493684920
(株)ベストブライダル-1.3105701064230
(株)アルプス技研-1.3352871783900
(株)秀英予備校-1.3661492134250
(株)ボルテージ-1.3669752625080
(株)学情-1.4058250593680
(株)NTTデータ-1.4060088567820
(株)ノバレーゼ-1.4321403773850
(株)テイクアンドギヴ・ニーズ-1.4357242224510
(株)ネクシィーズ-1.4604731513700
(株)アイロムホールディングス-1.4675734824000
ジェイコムホールディングス(株)-1.5017032824270
(株)トーセ-1.5275538383570
セコム(株)-1.5479140045910
(株)エイチ・アイ・エス-1.8424423914150
(株)スタジオアリス-1.8441150793710
(株)ニチイ学館-1.8993944522910
トランスコスモス(株)-2.0492190014110
綜合警備保障(株)-2.0929884364880
(株)NTTドコモ-2.1327529148120
(株)田谷-2.1711291542930
日本電信電話(株)-2.5002726588700

スクウェア・エニックスなどのような持株会社は、あまり意味がありません。

が、テレビ局などのメディア企業が上位に来ることが分かります。いや、これは単に元データを見れば最初から分かるのですが、主成分分析という分析の上で出てくるのです。このように、とりあえずマスコミを攻撃しておきます。

もう少し絞り込む

はてなユーザが特に関わっていそうなインターネット・システム・ゲーム企業に限ってみます。「はいはい、適当なこと書きやがって」と思っても、自社が入っていると、とりあえず見てみたくなるものですから。

社名PC2平均年収(千円)
スクウェア・エニックスホールディングス5.2170374721680
(株)JBISホールディングス1.6118063035580
ITホールディングス(株)1.5388722468120
JBCCホールディングス(株)0.9891473517610
日本オラクル(株)0.7761118319200
(株)野村総合研究所0.6546040610500
日本ユニシス(株)0.6488100197610
ISID0.5650575117910
兼松エレクトロニクス(株)0.5235939546740
パナソニック電工IS(株)0.4499331797230
(株)SRAホールディングス0.4454793676280
新日鉄ソリューションズ(株)0.342619067940
(株)アイティフォー0.3089194076100
サイバネットシステム(株)0.2792253356090
NECネッツエスアイ(株)0.2786814516930
NECフィールディング(株)0.2756099756830
(株)アイネス0.2637931176390
ネットワンシステムズ(株)0.2611915467110
コーエーテクモホールディングス(株)0.1454020746150
(株)シーエーシー0.1088595355980
SCSK(株)0.0890956087220
(株)フェイス0.0696338346560
(株)エックスネット0.0386379157480
トレンドマイクロ(株)0.0068045986900
(株)ベリサーブ0.0042484195720
(株)アルゴグラフィックス-0.0132583115660
(株)シーイーシー-0.0574731665680
伊藤忠テクノソリューションズ(株)-0.1197852977180
NSW-0.1380573945490
コナミ(株)-0.1563973436780
日立ビジネスソリューション(株)-0.1958981265810
(株)オービック-0.2414563567060
(株)シンプレクス・ホールディングス-0.2765297077370
フューチャーアーキテクト(株)-0.3027896816760
(株)TKC-0.327026775970
(株)大塚商会-0.3410934197340
(株)コア-0.3446980885290
(株)CIJ-0.393460295060
(株)アイネット-0.4108871314880
ソースネクスト(株)-0.4365684995960
TDCソフトウェアエンジニアリング-0.4419334645750
(株)ソフトクリエイト-0.450367145850
(株)カカクコム-0.4639853156390
(株)カプコン-0.5309410465710
(株)NSD-0.5518530455740
グリー(株)-0.5894706927430
(株)東計電算-0.5923360094950
ソフトブレーン(株)-0.6138803775370
(株)アグレックス-0.6289996345190
(株)クレスコ-0.646594345300
(株)DTS-0.6862089555680
(株)ネクスト-0.6945034215720
GMOインターネット(株)-0.699516475480
(株)ディー・エヌ・エー-0.7232480096260
クックパッド(株)-0.7430684826400
サイボウズ(株)-0.7875579955390
(株)一休-0.8059458085670
(株)ぐるなび-0.8583431575100
(株)マクロミル-0.862267395470
(株)システナ-0.8913232544980
(株)アルファシステムズ-0.9015988365360
(株)ジャステック-0.9796826845100
ヤフー(株)-1.0081049446460
(株)オービックビジネスコンサルタント-1.0233527075320
(株)デジタルハーツ-1.1624716033830
(株)ザッパラス-1.1741803154790
富士ソフト(株)-1.2937493684920
(株)ボルテージ-1.3669752625080
(株)NTTデータ-1.4060088567820
(株)ネクシィーズ-1.4604731513700
(株)トーセ-1.5275538383570
トランスコスモス(株)-2.0492190014110

何となくもっともらしい(ブラックっぽい)ところが下位に出てくるようになりました。NTTデータは規模の大きさゆえにでしょうか?下位から脱出できませんでした。

新興のインターネット企業でグリーとDeNAですが、グリーの勝利に終わりました。しかし、この太っ腹ランキングではインターネット企業は軒並み低順位です。○○ホールディングスなどの一部SIerが上位に来ていますが、これは、連結では社員数が多くとも、単独では少なく、また、年収が上がっているためです。

まとめ

データを加工して、もっともらしい理屈と統計用語を駆使すると、なんでも勝手なことでっち上げられるのです。

実際、こんなものは「俺は『平均年収÷平均年齢÷社員数×1000』を優良企業指数と認定したぞ!」というものとレベルはそれほど変わらないのですが、人間はだまされるものなのです。競馬や株価予想のなんたら指数みたいなものですね。

次回はトンデモクラスタリングをしてみましょう。

トラックバック - http://d.hatena.ne.jp/atzy/20120117/p1