Zansa 第四回に参加してきました。
以前から気になっていたZansaの会に参加しました。
おしゃスタで出会った学生さんが主催しています。
Zansa
- データマイニングは、学問は実務から生まれたもの
- 自己紹介は、一人15秒!!
- 最近の"一語"を絡めた自己紹介
重回帰分析
- 回帰分析とは
- 単回帰分析
- 結果変数を一つの独立した説明変数でモデルをつくる
- 重回帰分析
- 結果変数を複数の独立した説明変数でモデルをつくる
- 単回帰分析
結果変数:予測したい変数
説明変数:予測に使う変数
- 単回帰式
y^\hat = \hat{\beta_0} + \hat{\beta_1} + X_i
-
- 最小二乗法を使って、\betaを求める。
- 求める回帰直線とデータとの差分の平方和が最小になるように
- 差分を求める時に、負の値が出てくるので平方和をとる。
- なぜ、絶対値でなく、平方和なのか?→ガウス分布に出てくる誤差項の二乗を使っている。
- 決定係数:単回帰モデルの精度を確認
- 最小二乗法を使って、\betaを求める。
R^2 = 1 - \frac{ \sigma e^2 }{ \sigma(Y_i - \bar(Y) )^2 }
-
- 残差 = 実測値ー推測値
- 残差が小さいほど、良いモデル
- 残差 = 実測値ー推測値
差分\epsilon_i = Y_i - (\beta_0 + \beta_1X_i)
- 重回帰分析
- Rやエクセルの分析ツールを使って求めると便利
- よく使われるGDPを重回帰分析でモデルを作ってみる。
- 変数を使えば使うほど、精度が上がる。
- →変数の数に応じたペナルティが必要
- →自由度調整済み決定係数を使おう!
説明変数の選び方
- 結果変数と単相関で0.6以上あると嬉しい
- 説明変数同士に相関がない
- 説明変数が多くならないように
- 不要なパラメータを使わないように
金の価格を求めるという実例を用いながらの説明で、実感が湧きやすかった。
ただし、金の価格は時系列なデータなので、回帰分析をするのではなく、時系列分析をするべき!!
時系列データは、説明変数と結果変数が同時に動くので、適していない。
ちょっと変わったテキスト分類
櫻井彰人教授
- テキスト分類
- メール、ツイート、文書等文字列で表現されたものを分類すること
- できるだけ内容に従って分類すべきときを言う
- 方法
- テキストを数値ベクトルで表現する
- 教師データで学習する。
- 未知データに備える
- 特徴ベクトル
- bag-of-wordsで
- 記号を多様しているか否か、数字を多様しているか否かなどを参考にすることも
- 学習機械で学習させて、分類境界をつくる。
- ちょっと変わったテキスト分類
- それぞれの教師データに対してZipで圧縮し、長さ(データサイズ)を求める
- 分類したテキストを、教師データに付け加えて再圧縮する。
- 長さの差の求める。→長さの差が短い方に分類する。
- 従来
- 言語知識を活用して精度向上が図れる。
- 言語知識が必要
- マイナーな言語では利用できない。
- コストがかかる。
- ちょっと変わった方法
- 精度向上に限度がある
- 言語知識が不要
- 文字列なら適用可能
感想
発表中に疑問に思ったことを発言しあえる環境で、参加者全体が一団となって理解を深めていくところが良かった。
また、今回参加されていた大学教授の講演や質問に対する返答は、非常に勉強になった。次回も、参加したいと思う。