Zansa 第四回に参加してきました。

以前から気になっていたZansaの会に参加しました。
おしゃスタで出会った学生さんが主催しています。

Zansa

  • データマイニングは、学問は実務から生まれたもの
  • 自己紹介は、一人15秒!!
    • 最近の"一語"を絡めた自己紹介

重回帰分析

  • 回帰分析とは
    • 単回帰分析
      • 結果変数を一つの独立した説明変数でモデルをつくる
    • 重回帰分析
      • 結果変数を複数の独立した説明変数でモデルをつくる

結果変数:予測したい変数
説明変数:予測に使う変数

  • 単回帰式

y^\hat = \hat{\beta_0} + \hat{\beta_1} + X_i

    • 最小二乗法を使って、\betaを求める。
      • 求める回帰直線とデータとの差分の平方和が最小になるように
      • 差分を求める時に、負の値が出てくるので平方和をとる。
      • なぜ、絶対値でなく、平方和なのか?→ガウス分布に出てくる誤差項の二乗を使っている。
    • 決定係数:単回帰モデルの精度を確認

R^2 = 1 - \frac{ \sigma e^2 }{ \sigma(Y_i - \bar(Y) )^2 }

    • 残差 = 実測値ー推測値
      • 残差が小さいほど、良いモデル

差分\epsilon_i = Y_i - (\beta_0 + \beta_1X_i)

  • 重回帰分析
    • Rやエクセルの分析ツールを使って求めると便利
    • よく使われるGDPを重回帰分析でモデルを作ってみる。
    • 変数を使えば使うほど、精度が上がる。
    • →変数の数に応じたペナルティが必要
    • →自由度調整済み決定係数を使おう!

説明変数の選び方

  • 結果変数と単相関で0.6以上あると嬉しい
  • 説明変数同士に相関がない
  • 説明変数が多くならないように
  • 不要なパラメータを使わないように

金の価格を求めるという実例を用いながらの説明で、実感が湧きやすかった。
ただし、金の価格は時系列なデータなので、回帰分析をするのではなく、時系列分析をするべき!!
時系列データは、説明変数と結果変数が同時に動くので、適していない。

ちょっと変わったテキスト分類
櫻井彰人教授

  • テキスト分類
    • メール、ツイート、文書等文字列で表現されたものを分類すること
    • できるだけ内容に従って分類すべきときを言う
  • 方法
    • テキストを数値ベクトルで表現する
    • 教師データで学習する。
    • 未知データに備える
  • 特徴ベクトル
    • bag-of-wordsで
    • 記号を多様しているか否か、数字を多様しているか否かなどを参考にすることも
  • 学習機械で学習させて、分類境界をつくる。
  • ちょっと変わったテキスト分類
    • それぞれの教師データに対してZipで圧縮し、長さ(データサイズ)を求める
    • 分類したテキストを、教師データに付け加えて再圧縮する。
    • 長さの差の求める。→長さの差が短い方に分類する。
  • 従来
    • 言語知識を活用して精度向上が図れる。
    • 言語知識が必要
      • マイナーな言語では利用できない。
      • コストがかかる。
  • ちょっと変わった方法
    • 精度向上に限度がある
    • 言語知識が不要
  • 文字列なら適用可能

感想
発表中に疑問に思ったことを発言しあえる環境で、参加者全体が一団となって理解を深めていくところが良かった。
また、今回参加されていた大学教授の講演や質問に対する返答は、非常に勉強になった。次回も、参加したいと思う。