Hatena::ブログ(Diary)

yokkunsの日記

2014-11-08

ビッグデータを活かすデータサイエンス -クロス集計から機械学習までのビジネス活用事例という本を執筆しました!

前回の書籍「ビジネス活用事例で学ぶデータサイエンス入門」の姉妹本つくりました。


今回のはライト層向けの啓蒙的書籍です。

  • コードは一切ないです。
  • 統計処理の解説をつけました。
  • 用語解説を充実させました。

データサイエンスってなにしているの?的なことを軽く読みたい方ぜひ!

以下、「はじめに」を抜粋します。

はじめに

人間の感覚はとても優れています。ときにはデータでわかること以上のことに実感を伴って理解していたりします。しかしながら一方で、ある部分ではいいかげんなため、ある一面においてデータ分析がビジネスで効果をあげているのではないかと。

そのある一面とは他人の気持ちを想像するという一面になると考えます。経験することで生まれた感覚がデータを超えた、とても優れている機能であることは間違えないのですが、どこまでいっても自分の感覚という域をでません。ビジネスでは他人の気持ち、みんなの気持ちを上手に理解できた人や組織が有利になります。ある一握りの才能がある人は自分の経験をもとに一般化し、他人の気持ちを推し量りながら上手にサービスに組み立て、多くの人から需要のあるサービスを構築していきます。しかしながらこれはほんの一握りの推測できる才能がある人であり、大半の人々には残念ながら結果的には、本当にうまく他人の気持ちを推測することが困難です。特になにかのサービスを作った場合に、お金を払ってでも本当に欲しいという気持ちをもつ人の、具体的な人数、を想像することはとても難しいことのように感じます。

そこで従来、他人の気持ちを推測するための手法として、アンケートやグループインタビュー、行動観察、クレーム分析、購買データ解析などさまざまなマーケティング分析が実施されてきました。

サービスを企画する人が自分の経験をふまえ他人の気持ちを推測した結果と、実際のみんなの気持ちとの乖離が大きければ大きいほどにデータ分析はビジネス効率を上げることに役立ちます。我々のこれまでの業務体験を振返ってみましても、さまざまな業種、さまざまな職域において、効果の大小こそあれ、他人の気持ちを定量的に推測することに対しては役立つことが多いです。

近頃「ビッグデータ」という言葉が注目されています。データ分析者の視点からみると、これはひとえに他人の気持ちを推し量る道具として期待されている一面が大きいように感じます。アンケートやグループインタビュー、行動観察など従来のマーケティグ手法では、多くの人数から気持ちをとりにくいという状況があるからです。また従来の方法ではとれなかった気持ちもとれるのではないかという期待感もあるのではないでしょうか。

インターネットの普及により、インターネット上にはさまざまな気持ちのデータが残るようになりました。例えば、TwitterFacebook などによる個々人の意見のログ、あるいはどの言葉に関心があるかという検索ワードのログ、どのページに関心があったかというようなアクセスログなどもあります。あるいはGPSの位置情報ログ、通話や通信ログ、定期券TUTAYAカードによる駅の利用歴、コンビニなどの購買歴のような個々人の生活に関する行動ログも個々の企業にはのこりつつあります。

またデータ処理能力の向上により、画像解析や、大量なデータに対する複雑なモデリングなど、さまざまな計算が現実的な時間でできるようになってきました。

このような背景をもとに以下のように具体的な利用がされはじめています。みなさんも日常のなかで体験しているサービスもあると思います。

  • 商品の購買歴から、類似の商品を提案してくるレコメンデーションサービス

・ WEBの閲覧歴から、広告を提案してくるページ

・ 顔画像をもとに、買うべき飲み物を推薦してくる販売機

・ あるDVDを借りると、おまけでクーポンがでてきた

・ 人々のつぶやきから、株価があがりそうな銘柄をおしえてくれるサイト

・ 人々のつぶやきから、今人気のあるニュースを教えてくれるサイト

ビッグデータという新しいデータや、高速となった処理方法から、他人の気持ちを推測し、これを直接的につかっているサービスを紹介しました。これらのサービスは、データ活用の視点からみると大きく2つに分類できます。

「社外データの活用」と、「社内データの活用の充実」になります。

社外データとはつまりインターネット上のデータです。具体的にはTwitterFacebook などによる個々人の意見のログから株価があがりそうな銘柄をみつけることなどにあたります。あるいは自社が販売開始した商品に対するコメント数を見る。検索数を見る。などのマーケティング活用があります。こちらの社外のデータ活用は一定の効果があがりつつある分野ですが、その成果は主に金融業界に限られることも含め、ビジネスでの再現性という視点から見ると、現在、研究段階にあるように感じます。

一方で、社内データの活用ですが、従来、購買データや、営業データ、経理データなどから各組織では業務のロスを少なくしていく改善活動、業務の最適化が行われていたことと思います。つまり従来のデータ分析とは、自社に蓄えられたデータを各部署が処理し、業務を改善してきたということになります。

これに加え現在では、他の部署と連携したデータ分析ができるようになってきました。それは多くの業種がインターネットを利用しつつサービスが行われるようになってきたからです。例えば、各企業の情報システム部ではWEBのアクセスログを残していることと思います。本来の利用目的としては、システム負荷をみつつユーザ数とシステムとの最適化を検討するため、あるいはあるユーザが何かのトラブルになったときの障害対応のために残していることでしょう。 

しかし、このようなデータをサービスに対するユーザ行動ログとみなし、自社に蓄えられた購買データなどにデータを付与し分析していくことができます。まさにビッグデータによる社内データの活用の充実ということになります。今、さまざまな企業がインターネットを利用しつつサービスを展開していくので、多くの企業で活用でき、効果をあげる再現性のあるデータ分析ということになることでしょう。

我々はこの本を通し、実際のビジネスのなかで「ビッグデータ分析」を行なうことで、何ができるのか、どういうふうに役に立たせることができるのか、を示していきます。具体的に想定する読者ですがビジネスのビッグデータ分析に関心がある人を念頭に執筆しました。分析に関心がある人とは、ビッグデータ分析の活用を検討しているマーケティング職や企画職、経営層や管理職のかた、あるいは将来、ビッグデータ分析をする仕事に関心がある学生さん、あるいは働いて間もないビジネスパーソン、さらにはビッグデータ分析者と協力していきたい中堅のビジネスパーソンを想定しています。

収集目的が異なるため、フォーマットがそろっておらず、最初からはきれいではない、いくつかの前処理が必要なデータに対して、どう処理し結合し、どう統計解析の道具を活用していくのかについて紹介しました。

 本書は、前著「ビジネス活用事例で学ぶ データサイエンス入門」の姉妹本となります。前著では、キャリアとしてデータサイエンスという職務領域に関心をもつ人に、データをさばくコードの書き方、使い方を含めた形でその実態をお伝えしました。

一方本書では、書籍内から具体的なコードはいっさい排除し、データ処理の流れと、データの活用方法がよりわかりやすく伝わるようにしました。

データサイエンティストって何をやっているの?という人

データサイエンティストと協力しビジネスを展開している人

データサイエンティストと協力しビジネスを展開していきたい人

など、より広い読者に対して、今、このビッグデータ分析の領域で具体的にできることの一部をより分りやすくお伝えしたく思ってます。

2014-08-30

第42回Tokyo.Rを開催しました。

第42回Tokyo.Rを開催しました!


今回は、いつもと違って、Y!Jのでの開催で、

株式会社Qubital(キュービタル)データサイエンスさんの社員の方々がスタッフをやってくださいました。

ありがとうございます!!



前半セッション

R入門(dplyrでデータ加工):@gepuro

ggplot2によるデータ可視化:@yokkuns



データ分析するときの4つの視点:@yokkuns



後半セッション

はじめようテキスト自動要約:@yamano357

http://rpubs.com/yamano357/27317


パッケージ作成法(RStudio編):@teramonagi



データハンドリング系の何か:所沢義男

LT

@motivic_:Rで代数統計

@hoxo_m:Bokete Player の裏側

@satkita :データサイエンティスト必見!M-1グランプリ

@weda_654:dummiesパッケージ

次回

9/20に開催予定です!

関連

2014-08-27

2014-08-24

「手を動かしながら学ぶ ビジネスに活かすデータマイニング」を献本頂きました!

「手を動かしながら学ぶ ビジネスに活かすデータマイニング」を献本頂きました!

@TJO_datasci さん、ありがとうございます!



https://pbs.twimg.com/media/BvTnE0BCEAAD4TF.jpg


まだパッとみた感じではあるのですが、本書の内容としては、

統計手法の解説を中心にビジネス応用する部分の入り口までうまく書かれています。

従来、統計手法の解説は、数式と言葉が中心でしたが、

この本では、概念図とコードとその結果という説明方法でとても分かりやすく書かれています。

著者のブログでも書かれているように、

まさに『統計学機械学習も「直感的にわかる」』本になっているので、特に初心者の方におすすめです!

興味のある方は、ぜひ書店でお手に取ってみてください!

関連


一応、最近出た自分の書籍の方の宣伝もしておきます(笑)

こちらは、手法を直感的に理解というよりは、ビジネスでの使い方や考え方にフォーカスした本となっています。



また、これらを読み終わったら、きっと事例的なものが読みたくなる・・・はず!(無理矢理)

2014-08-23

戦略的データマイニング (シリーズ Useful R 4) という本を執筆しました!

最近、本書いたエントリーしか書いてないんじゃないかと噂ですが、

今回も本書いたエントリーです!(笑)

前回の報告のときにも触れましたが、戦略的データマイニング (シリーズ Useful R 4) という本を執筆しました!

(ちなみに、初の単著です!)



この本は、自分のこれまでの経験をもとに構成していて、

例えば、エンジニアからデータ分析者になったときに感じたギャップや、

エンジニアの時には意識する事もなかったマーケティング戦略的な視点などを整理してみた本になっています。

整理する際には、いろんな切り口があると思いますが、

この本では、以下の三つの切り口で整理しています。

  • 解決すべビジネス課題を見つける
  • 何をすべきかの意思決定を支援する
  • アクションを自動化するためのロジックを作る

また、なるべく初心者向けにしたいなという思いがあったため、

この手の本では珍しく、数式を使わない方針で書いています。

ツールとして「R」を使ってはいますが、

ビジネスのデータ分析全般の入門書として読んでもらえると嬉しいです!


関連

他の執筆に関するエントリ