Hatena::ブログ(Diary)

アイアナ:データ分析や人工知能(AI)などの技術雑記

2009 | 11 |
2010 | 02 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2011 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2012 | 01 | 03 | 04 | 05 | 10 | 12 |
2013 | 01 | 02 | 04 |
2014 | 03 | 12 |
2016 | 03 |
2017 | 10 |

2011-12-25

今年紹介してきた統計学機械学習・R・データマイニングの本やサイトまとめ

もう今年も終わりですね。今日はクリスマスというのに何をしてるのやら、、、とか思いつつ記事を書いてます。1年の大掃除の意味も込めて、今年いろんな人に紹介してきた本やサイトをまとめておこうかなと思います。



まずは定番の2冊。「機械学習」「統計的学習」と名前は分かれていますが、同じ手法を視点を変えて説明しているような感じです。


機械学習をいきなり英語で本格的に学ぶのがキツい場合は、これらの本やサイトが網羅的なのでオススメです。

多変量解析入門――線形から非線形へ

多変量解析入門――線形から非線形へ


英語の初級本は「おしゃスタ」勉強会でも使っている、この本。


初級〜中級以上は日本語のこの本です(この本はシリーズになっていて、他の2冊もオススメです)。

統計学入門 (基礎統計学?)

統計学入門 (基礎統計学?)

一般化線形モデルのこの本も追記。

一般化線形モデル入門 原著第2版

一般化線形モデル入門 原著第2版



学術的な本が辛い場合は、これらの読み物が良いと思います(読み物系は他にもいろいろありますのでお好みで)。

統計学とは何か ―偶然を生かす (ちくま学芸文庫)

統計学とは何か ―偶然を生かす (ちくま学芸文庫)





次にRの本やサイトです。

統計学:Rを用いた入門書

統計学:Rを用いた入門書

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rによるデータサイエンス データ解析の基礎から最新手法まで


Data Mining with R: Learning with Case Studies (Chapman & Hall/CRC Data Mining and Knowledge Discovery Series)

Data Mining with R: Learning with Case Studies (Chapman & Hall/CRC Data Mining and Knowledge Discovery Series)

The Art of R Programming: A Tour of Statistical Software Design

The Art of R Programming: A Tour of Statistical Software Design

An R and S-Plus Companion to Multivariate Analysis

An R and S-Plus Companion to Multivariate Analysis

この本はMDSやコレスポンデンス分析についても書いてあります。




最後にデータマイニング系のサイトです。



資料はこれくらいでしょうか。

もうすぐ今年も終わりですね。この1年はいろいろありました。iana設立、おしゃスタ開催、TokyoRやTokyoWebminingに参加し始めたのも今年の4月からでした。ビジネス目的で海外に行ったのも初めてでした。いろんなところで新しい友人や仲間ができ、とても良い年でした。年の瀬にまた今年を振り返って、来年をより成長できる年にできるよう、頑張っていきたいですね!!

2011-12-23

Twitterフォロワーマップ

Twitterフォロワーがどこに居るのかをマップで描いてくれる関数がR-bloggersに公開されました。


図がとても綺麗なので、せっかくなのでやってみました。RCurlが必要なのですが、windowsの場合、RCurlがinstall.packages()ではインストールできないので、下記からzipで落としてローカルからインストールしておきます。


その後、下記を実行します(isseing333の部分は適宜、興味あるユーザーに変更して下さい)。

source("http://biostat.jhsph.edu/~jleek/code/twitterMap.R")
options(encoding="shift-jis")
twitterMap("isseing333")

日本語がエンコーディングの問題で扱えないようなので、options(encoding="shift-jis")を指定しています。それでもwarningがいくつも出るので、userLocationオプション等を設定する必要があるのかもしれません。


実行すると、時間はフォロワー数にもよると思いますが、数分後にpdfファイルが作業ディレクトリに保存されます。結果はこんな感じです。

f:id:isseing333:20111223230123j:image


フォロワーが描画されているわけではなさそうなので、詳細を知る場合は関数内部をハッキングする必要がありそうです。

2011-12-22

おしゃれStatistics@銀座が開催されました!

先日、おしゃスタが銀座で開催されました。リクルート社さんのメディアテクノロジーラボ(MTL)という会場です。とてもおしゃれな会場で、ちょっとビックリ&緊張しましたw 発表の内容はUSTになっているので、統計学にご興味のある方はぜひ。



また、MTLさんのブログでも紹介されております。


いつもと違う会場でしたが、とても雰囲気が良くアットホームな感じで発表ができました。今回は私の他に@millionsmileさんと@teramonagiさんがスピーカーをしていらしたのですが、2人とも統計を違った分野で活用している事例だったのでとても興味深かったです。色んな分野での応用事例を勉強できるのは面白いですね。




思い起こせば、おしゃスタは第1回が歌舞伎町ルノアールで行われ、今回は6回目でした。初回は7人でしたが、今回は約40人の方に来て頂けました。勉強会を始めた頃は、年末にこのような規模で行なうことができるとは思っておらず、参加者の皆様やスタッフのみんなには、ただただ感謝ですm(__)m

過去の開催はこのような感じでした。

せっかくなので、これまでのおしゃスタの「参加人数」「キャンセル人数」「キャンセル割合」をグラフにしてみました。

f:id:isseing333:20111222182922j:image


こうしてみると、普段はキャンセル率が結構高いですが、今回は参加人数が多い割にキャンセル率が少ないですね。銀座MTLで開催されたり、ゲストスピーカーさんが発表して下さったお陰でしょうか!

このグラフのRコードはこちらです(2軸プロットになっています)。

x  <- c(7, 15, 23, 22, 17, 40) # 参加人数
x1 <- c(0, 4, 12, 8, 9, 7)     # キャンセル人数
x2 <- c(7, 19, 35, 30, 26, 52) # 申し込み人数

y <- c("20110505", "20110707", "20110811", "20110920", 
       "20111027", "20111220")
yDate <- as.Date(y, "%Y%m%d")


par(mar=c(5, 4, 5, 4))
ymax <- 50
plot(yDate, x, type="b", xlab="Month", ylab="Number", bty="l", 
     ylim=c(0, ymax), xaxs="i", yaxs="i", 
     xlim=c(min(yDate) - 20, max(yDate) + 20), las=1, 
     main="oshasta")
lines(yDate, x1, lty=2)
rect(yDate-5, 0, yDate+5, x1/x2*ymax, col="#00000022", border="grey")
axis(4, seq(0, 100, by=25), at=seq(0, 60, by=ymax*0.25))
mtext("Proportion", side=4, padj=3)
abline(h=0)
legend("topleft", c("Number of participants", "Number of cancels", 
                    "Proportion of cancels"), 
       lty=c(1, 2, 1), pch=c(1, 0, 15), col=c(1, 1, "#00000022"))

これからもおしゃスタを続けていきたいと思っておりますので、今後共宜しくお願い致します!!


Togetterです