『ビッグデータ』による変化とその備え

この記事は約3分で読み終わります。

ビッグデータの衝撃」を先輩に借りて読んだので、ざっくりとまとめと書評的なところを。

ビッグデータの衝撃――巨大なデータが戦略を決める

ビッグデータの衝撃――巨大なデータが戦略を決める

ビッグデータって大きいデータ!?

 そもそもビッグデータとは何か。本書では次の定義で書かれている。

既存の一般的な技術では管理するのが困難なデータ群

これは、データとしては従来よりも複雑な構造か、あるいは今までのクエリでは応答が返るまでに相当な時間を要するものと考えると良い。

ビッグデータの特性

 ビッグデータの特性としては以下の「3V」となる。

  • ボリューム(データ量)
  • バラエティ(多様性)
  • ベロシティ(速度)

 ボリュームは言わずもがなであるが、多様性として従来の販売データ/在庫データに加えて、通話履歴、SNSのテキストデータ、位置情報、センサーデータ、動画等々が様々なデータが対象となる。また、Suicaに代表される交通系ICカードが生み出すような発生頻度の高さ(データの発生・更新頻度)も特性のひとつと言える。

BI(ビジネスインテリジェンス)との違い

 ここでひとつ疑問が生じる。従来BIと言われた分野はなんだったのか。それと何が違うのか、と。これは結構人と話していても話題にのぼる。結論から言えば、BIはそもそも仕組みのことなので、ビッグデータとBIは1対1には語れない。BIと「ビッグデータの活用」は同じ概念と言える。要は、ビッグデータを活用した洞察の仕組みにビッグデータも活用する、ということに他ならない。そのため、BIはビッグデータにより進化を遂げると言って良い。今までの「過去・現在の見える化」に加えて、ビッグデータを用いた「将来予測」へ進化するというわけだ。

トランザクションデータからインタラクションデータへの変遷(点から線へ)

 データの活用は、点から線へ移りつつある。つまり、「モノが売れた」という点の情報ではなく、その背景や相互作用とつなげて考えることにシフトしている。具体的には、購買へ至るまでのプロセス分析等がそれに当たる。そのための必要な情報は膨大になる。
 また、注目されていることとしては、今までのウェブ上だけの分析ではなく、オフラインやO2Oでの分析である。これにより、Webと実際の行動との行動分析が可能になる。

ビッグデータのデータ処理基盤

 Googleが04年に発表したMapReduceという大規模データの分散処理方式の提言をフレームワークとして実現したHadoopが現在のビッグデータブームを技術面で支えている。Hadoopは膨大な量の非構造化データのバッチ処理に大きな効果を発揮する。
 処理を行う部分以外にも、データの保持として従来のRDBMSの課題である「スケールアウトの困難さ」や「構造化されていないデータの処理」を解決すべくNoSQLデータベースの誕生も大きくこのブームに寄与している。前もってスキーマ定義できないようなデータを蓄えるのがRDBMSに適していないことは明らかである。

現在保有するデータの活用

 とはいえ、企業は今までBIの名のもとに巨大なデータウェアハウスを利用してきたわけだが、それがまったく利用できずに仕組みが転換するという流れではない。従来のDWHユーザとしてどうビッグデータを利用するかという点では、Hadoopを活用して非構造化データを構造化した後で、それをDWHに取り込み、今まで通りSQLを使って分析するということが可能である。また、そうすることで今まで蓄積されてきた(またはこれからも蓄積される)構造化データとSNS等から得られる非構造化情報を組み合わせて新たな発見を得られる可能性もある。

Hadoopがビジネスにもたらすメリット

 リクルートの事例等を見ると、Hadoopによるバッチ処理時間の短縮は単純に教科書的なメリットだけではなく、以下のメリットを享受できる。

  • 何度でも要件(仮説)を変更し、トライ&エラーを繰り返すことができる
  • サンプリングに頼らないロングテール部分の分析できる
  • 開発サイクルが短縮できる

現在、重視されるビジネスのスピードの根幹を支えることができる可能性をもっているとも言える。

ビッグデータの活用例

 ここは様々な書籍や雑誌でも紹介されているが、本書での例を列挙すると以下のとおり。

  • 商品やサービスのレコメンデーション
  • 行動ターゲティング広告
  • 位置情報を利用したマーケティング
  • 不正検出
  • 顧客離反分析
  • 故障予測
  • 異常の検出
  • サービスの改善
  • 渋滞予測
  • 電力の需要予測
  • 風邪の流行を予測
  • 株式市場の予測
  • 燃料コストの最適化

これらの活用で、消費者の側にもメリットはもちろんある。例えばレコメンデーションでは、一定周期で必要とする消耗品等は時間軸でレコメンドすることで双方にメリットをもたらす。

データをつなげる

 政府や自治体などの公的機関が保有している統計データ等をオープンにし、皆でつなげて社会全体で大きな価値を生み出すために共有しようとする取り組みは「LOD(Linked Open Data)」と呼ばれる。あらゆる場所に存在するデータに対し、その量ではなく、それらをつなぎ合わせることで今まで得られなかった価値を得る、そうした動きが広がっている。
 公的機関と書いたとおり、対象とするデータも今まで企業が抱え込んでいたデータだけでなく、外部のデータも利用することで様々な分析結果が得られることとなる。残念ながら、日本ではこうした公的機関の情報公開は少ないが、時代の中でこうした動きが加速していくことは間違いないだろう。

ビッグデータ時代への備え

<ビッグデータ時代のデータ活用戦略>

 ビッグデータ時代とはいえ、企業としてこうした道を進むかどうかは企業戦略次第と言えるが、少なくともデータを軸に競争優位を目指すのであれば、自社データ以外にも外部データを含めたデータ活用戦略を策定する必要がある。そして、データを軸にするのであれば、「○○という目的のためにはどのようなデータが必要か」というところを明確にするために、○○が何かというところはもちろん明確でなければならない。その意味でクックパッドとアイディーズのデータ連携はわかり易い。クックパッドでの料理検索データ等と実際の食材の購買データを活用し、利用者に適切なレシピが提供できる一方で、スーパー側にとっても食材の購入目的の把握等が期待できるわけである。

<データサイエンティストの活用>

 いくらHadoopを代表するデータ処理基盤ができたからと言って、それを活用するのはやはり人間である。そのため、ビッグデータの活用には、価値を生み出す人材が必要である。具体的には、ツールを駆使して、膨大なデータから価値を見出し、それを分かり易く説明し、ビジネスに実装する人材である。これを本書ではデータサイエンティストと言っている。特に今後10年のIT業界にとって最も重要な人材となる可能性がある。
 専門的とは言わないまでも、様々な企業において、データを取り出し、処理し、価値を引き出し、可視化する能力は重要になるのは間違いないだろう。自由にデータを取得できる時代であればなおさらだ。

<データ駆動型企業への変遷と組織体制、企業風土との闘い>

 こうした分析が必要なことはわかるが、特に現在の時代の変遷期に於いては、その転換を妨げる組織風土や体制がある。「昔からこうしたきた」という固定観念や「アイデアの善し悪し」よりも「誰がそう言ったのか」が問題にされるようでは、なかなか戦略も立てられない。そのため、こうしたことを考える人材を企業内で育てて、教育していくことも重要になっていく。
 結果として、分析結果から得られた洞察をタイムリーにビジネスに組み込み、競争優位を導くことができる企業(=データ駆動型企業)となっていくのである。

所感

 新しい考え方というよりは、上記のとおり、BIがビッグデータの活用により進化を遂げるといえば非常に導入障壁も少なく感じる。とはいえ、やはり大きな課題はデータを分析する人材である。統計学の基礎はもちろん、一般的な分析手法に精通し、データの価値の見出す力=ビジネスの見出す力を必要とする。一朝一夕には身につかないものであるが、他社事例もそれなりに豊富なため、データ戦略を立てるならば、最初はそうした事例をベースにするのが最も効率が良いだろう。要は自社のポジショニングにマッチするデータを見出せれば良い。そのためにも、データ戦略は適切なマーケティング戦略を合わせて語られるものであり、そこが揺らいでいればデータ自体の価値も曖昧となるに違いない。データの活用は目的ありき、まさにそれに尽きるはずである。

ビッグデータの衝撃――巨大なデータが戦略を決める

ビッグデータの衝撃――巨大なデータが戦略を決める