Zansa 第四回に参加してきました。

以前から気になっていたZansaの会に参加しました。
おしゃスタで出会った学生さんが主催しています。

Zansa

重回帰分析

回帰分析とは
- 単回帰分析
  - 結果変数を一つの独立した説明変数でモデルをつくる
- 重回帰分析
  - 結果変数を複数の独立した説明変数でモデルをつくる

結果変数：予測したい変数
説明変数：予測に使う変数

y^\hat = \hat{\beta_0} + \hat{\beta_1} + X_i

- 最小二乗法を使って、\betaを求める。
  - 求める回帰直線とデータとの差分の平方和が最小になるように
  - 差分を求める時に、負の値が出てくるので平方和をとる。
  - なぜ、絶対値でなく、平方和なのか？→ガウス分布に出てくる誤差項の二乗を使っている。
- 決定係数:単回帰モデルの精度を確認

R^2 = 1 - \frac{ \sigma e^2 }{ \sigma(Y_i - \bar(Y) )^2 }

差分\epsilon_i = Y_i - (\beta_0 + \beta_1X_i)

説明変数の選び方

金の価格を求めるという実例を用いながらの説明で、実感が湧きやすかった。
ただし、金の価格は時系列なデータなので、回帰分析をするのではなく、時系列分析をするべき!!
時系列データは、説明変数と結果変数が同時に動くので、適していない。

ちょっと変わったテキスト分類
櫻井彰人教授

テキスト分類
- メール、ツイート、文書等文字列で表現されたものを分類すること
- できるだけ内容に従って分類すべきときを言う
方法
- テキストを数値ベクトルで表現する
- 教師データで学習する。
- 未知データに備える
特徴ベクトル
- bag-of-wordsで
- 記号を多様しているか否か、数字を多様しているか否かなどを参考にすることも
学習機械で学習させて、分類境界をつくる。
ちょっと変わったテキスト分類
- それぞれの教師データに対してZipで圧縮し、長さ（データサイズ）を求める
- 分類したテキストを、教師データに付け加えて再圧縮する。
- 長さの差の求める。→長さの差が短い方に分類する。
従来
- 言語知識を活用して精度向上が図れる。
- 言語知識が必要
  - マイナーな言語では利用できない。
  - コストがかかる。
ちょっと変わった方法
- 精度向上に限度がある
- 言語知識が不要
文字列なら適用可能

感想
発表中に疑問に思ったことを発言しあえる環境で、参加者全体が一団となって理解を深めていくところが良かった。
また、今回参加されていた大学教授の講演や質問に対する返答は、非常に勉強になった。次回も、参加したいと思う。