2014-09-06

すべてがMFになる

機械学習

すべてがFになる，映像化するみたいですね．犀川創平も西之園萌絵も配役がイメージと違って一部で話題になっていました．さて，最近テンソル分解を使った論文をよく見かけるのですが，いまだにきちんと整理できずにいます．テンソルかわいいよ，テンソル．

そこで，まずは行列分解(matrix factorization, matrix decomposition)を整理してみようと思います．行列の分解手法というと線形代数的な観点からは簡単に思いつくだけでも

固有値分解
LU分解
コレスキー分解

などがありますが，これらは分解前の行列と分解後の行列が一致する(たとえばA=LU)方法です．一方で，機械学習やデータマイニング界隈（特にレコメンデーション等）で出てくる行列分解というのは，大規模データや関係性データの中から低ランクの構造を抽出することや次元圧縮を目的としています．なので，正確に言うならば，行列分解というよりは低ランク行列近似と呼ぶ方が正しいように思います．

これらの低ランク行列近似の方法論は暗に低ランク性を仮定しているということがポイントです．ということで，

特異値分解(Singular Value Decomposition; SVD)
主成分分析(PCA)
CUR分解 or CMD(Compact Matrix Decomposition)
非負値行列因子分解(Non-negative Matrix Factorization; NMF)

あたりを簡単にまとめてみたいと思います．ちなみに行列分解の専門家ではないので，間違いがあればご指摘ください．

特異値分解(SVD)

特異値分解は以下の式の解として得られる行列Yによる近似です．(Fはフロベニウスノルム)
$\min_{Y} ||X-Y||^2_F$
$s.t. \ \ rank(Y) \leq k$
その結果として，行列Xは

のように分解（近似）できます．Σは特異値を上から順にk個とって対角行列にしたものです．SVDは多くの分野で使われているものの，行列のサイズが大きくなったときには計算コストが大きくなります．

主成分分析

主成分分析は古典的な多変量解析手法ですが，やっていることはSVDと同じです．主成分分析における主成分と因子負荷量はSVDで分解した行列を用いると以下のように表すことができます．

そのため，左特異ベクトルと特異値の積が各主成分になっていて，右特異ベクトルがそれぞれの因子負荷量になっているという関係なのですね．

CUR分解 or CMD

2009年のid:mamorukさんのエントリではCUR分解と呼ばれています．（簡単に調べてみたけど）特に日本語での呼び名はないっぽいです．

CURやCMDのモチベーションはSVDによる分解では，大規模だがスパースな行列Xを $U \Sigma V^T$ に分解したときに， $U$ や $V^T$ が密行列になってしまうという問題を防ぎたいというものです．もちろんこれが問題かどうかはタスク依存だと思いますが，解釈しやすさなどを考えると $U$ や $V^T$ が疎行列になると嬉しい訳です．また，元行列がスパース行列なので，そのスパース性を失うのももったいないというモチベーションがあります．

そこで，SVDでは密行列だった $U$ や $V^T$ に対し，元のスパース行列からサンプリングして $C$ や $R$ をつくり，行列近似を行うというのがCUR分解のイメージです．

提案論文では一様分布からサンプリングをしていて，その後もう少し賢いサンプリング法(CMD)が考えられています．サンプリングするだけでいいの！というのは驚きですが，元行列がスパースな場合，よくよく考えてみるとPCA(SVD)がやっているorthogonal projectionとサンプリングがほぼほぼ変わらないというのは直感的には真であると思います．

NMF

非負値行列因子分解(NMF)も結構いろんなところで見かける行列分解手法で，非負行列Xが与えられたときに， $X \approx UV$ のように二つの行列の積に分解します．その名の通り，分解した行列U, Vがそれぞれ非負のため，解釈しやすい，現象論的に負の値を取らない現象を表現できる，ということがウリです．

主成分分析(やSVD)では独立性が仮定されていたのに対し，NMFでは非負性を用いることで，独立性を仮定することなく行列分解を可能としています．

近似の評価尺度としては，XとUVのフロベニウスノルムの最小化，
$\min ||X - UV||^2_F$
一般化KLダイバージェンスの最小化
$\min KL(X, UV)$
などが利用されるようです．

以前，持橋先生の資料でLDAで得られたトピック行列と混合比行列は正規化するとNMFと同じことをしているという内容があったように記憶しています．

まとめ

というわけで，非常に簡単ですが，SVD, CUR, NMFあたりを大雑把にまとめてみました．詳細は各手法の理論背景，計算方法，実装等を眺めるのが良いと思いますが，簡単なプレビューとしてお役に立てばと思います．

PFIの比戸さんが昨年まとめられているKDD2013のbest paperのmatrix sketchは行列分解ではないですが，ある巨大な行列を小さな行列に圧縮するという方法でたぶん似たような考えの方法ではないかと思います(未読)．行列分解や次元削減の界隈は圧縮センシング等のスパース性を設計原理としたモデリングにも通ずる発想ですよね．というわけで，そろそろテンソル理解したい．誰かおせーて．

参考

昨年のMachine Learning Advent Calendarでysks3nさんがmatrix factorizationについての解説エントリを書かれています．
NMFについてはid:naoyaさんのNMFに関する2009年の解説エントリやid:a_bickyさんのNMFに関する2010年の解説エントリがわかりやすいです．
id:mamorukさんも紹介していたCURに関するCIKM 2008のチュートリアル
LIBSVMやLIBLINEARで有名なNational Taiwan UniversityのProf.Chih-Jen LinのグループがLIBMFという行列分解のライブラリをつくってるみたい．まだ動かしてないので未確認．
追記：ブコメでid:reposeさんが教えて頂いたのですが，University of KonstanzのDr.RendleによるlibFMというライブラリもあるそうです．こっちはFactorization machinesという彼らのICDM2010のpaperでの提案手法が元になっています．

2014-07-02

Learning Latent Variable Gaussian Graphical Models (ICML2014)読んだ

論文

MLaPPアドベントカレンダー12日目という下書きが下書きエントリにずっと入っていてそろそろ腐敗し始めているため，きまずくてブログが更新できない昨今です．MLaPPアドベントカレンダーは2年越しの計画という言い訳を思いついているので，今年の年末にがんばりたいですね…．

さて，学生さんへの紹介用にICML2014のLearning Latent Variable Gaussian Graphical Modelsの説明スライドをつくったので，ブログにのっけておきます．細かい話は一切書いてないですが，そこらへんは論文を読んでください．

Learning Latent Variable Gaussian Graphical Models from harapon

ICML2014で面白そうだと思った論文は

Joint Inference of Multiple Label Types in Large Networks
Learning Modular Structures from Network Data and Node Variables
Efficient Dimensionality Reduction for High-Dimensional Network Estimation
Von Mises-Fisher Clustering Models
Bayesian Nonparametric Multilevel Clustering with Group-Level Contexts
Hierarchical Dirichlet Scaling Process
Fast Computation of Wasserstein Barycenters
Learning Latent Variable Gaussian Graphical Models
Affinity Weighted Embedding
Rectangular Tiling Process
Rank-One Matrix Pursuit for Matrix Completion
Multiresolution Matrix Factorization
Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis (best paper)
On Modelling Non-linear Topical Dependencies
Admixture of Poisson MRFs:A Topic Model with Word Dependencies

あたりです．自分の興味の偏りがわかりますね:-)

2013-12-11

MLaPP アドベントカレンダー11日目：Ch.11 Mixture models and the EM algorithm

ML 本

この章は混合モデルとEMアルゴリズムについて．前半の混合モデルについてはちゃんと読めたけど，EMについてはそんなに詳しく読めていないし，知っているところも多かったのでだいぶ飛ばしてしまった．混合モデル周辺はこれまでそんなに触ったことがないので，実装して挙動はきちんと確かめたいと思います．

Latent variable models

- グラフィカルモデルは2変数間の依存関係をエッジで表現するので高次元
- 別のアプローチとして観測変数は共通の隠れ要因から生まれているので相関があるという考え方
- これがLatent variable model
- このモデルは潜在変数のないモデルよりフィットが難しいが2つの理由で重要な利点がある
  - (1)直接的に相関を表すモデルより少ないパラメータ数(Fig 11.1)
  - (2)LVMにおける隠れ変数はデータ圧縮表現のボトルネックとして作用

Mixture models

- 最もシンプルな場合： $z_i \in \{1,\ldots,K \}$ が離散潜在変数を表す
- これらに対して離散的な事前分布 $p(z_i) = Cat(\pi)$ を用いる
- 尤度は $p(x_i | z_i = k) = p_k(x_i)$
- ここで $p_k$ : k番目のbase distribution
- これらのモデルはK個のbase distributionを混ぜるのでmixture modelとして知られる
- $p(x_i|\theta) = \sum_{k=1}^K \pi_k p_k(x_i|\theta)$
- これは $p_k$ の凸結合である
Mixture of Gaussians
- 最も広く使われる混合モデルはmixture of Gaussians, Gaussian mixture model
- このモデルではbase distributionは $\mu_k, \ \Sigma_k$ の多変量正規分布
- $p(x_i|\theta) = \sum_{k=1}^K \pi_k N(x_i|\mu_k, \Sigma_k)$
Mixture of multinoullis
- 多くの種類のデータに関する密度モデルを定義するために混合モデルを使う
- たとえばD次元のビットベクトルでデータが構成されているとき
- 適切なクラス条件付き密度波ベルヌーイ積である
- $p(x_i|z_i=k, \theta) = \prod_{j=1}^D Ber (x_i|\mu_{jk}) = \prod_{j=1}^D \mu_{jk}^{x_{ij}} (1- \mu_{jk})^{1-x_{ij}}$
- モデルをよりパワフルにするために潜在変数を導入
- $E[x] = \sum_k \pi_k \mu_k$
- $cov[x] = \sum_k \pi_k [\Sigma_k + \mu_k \mu_k^T] - E[x] E[x]^T$
- 構成分布は因数分解できるが，混合分布はそうではない
- このように単一のベルヌーイ積モデルと異なり，変数間の相関を捉えられる
Using mixture models for clustering
- 混合モデルの2つのアプリケーション
  - black-box density model
    - 各クラス条件付き確率を混合分布にすることでデータ圧縮，異常値検知，生成分類器などに有用
  - clustering
    - 基本アイデアはシンプル．まず混合分布にfitさせる．次に $p(z_i=k|x_i, \theta)$ を計算
    - これは点iがクラスターkに属する事後確率を表す
    - クラスターkの点iに対するresonsibilityとして式(11.6)で計算
    - このプロセスはsoft clusteringと呼ばれ，生成分類器で用いられる計算と同じ
    - $(1- \max r_{ik})$ を用いてクラスター割当の不確実性も表現できる
    - これが小さければ，MAP推定を用いてhard clusteringを計算するのが合理的
Mixtures of experts
- 分類や回帰には識別モデルも使えるが，入力空間の異なる部分に対して3つの異なる回帰モデルを適用するのが望ましい場合がある
- このようなモデルはmixture od experts (MoE)と呼ばれる(Jordan and Jacob, 1994)
- 基本アイデア：各サブモデルは入力空間のある部分において"expert"として考える
- $p(z_i=k|x_i, \theta)$ はgating functionを呼ばれる
- 入力値に応じてどのexpertsを用いるかを決める
- $p(y_i|x_i,\theta) = \sum_k p(z_i=k|x_i,\theta) p(y_i|x_i,z_i=k, \theta)$
- このモデルのfitについてはSec 11.4.3で議論
- expertとして任意のモデルが組み込めることは明らか

Parameter estimation for mixture moels

Unidentifiability
Computing a MAP estimate is non-convex

The EM algorithm

EMはそれなりに知っているので流し読み程度で．

Model selection for latent variable models

Fitting models with missing data

だいたい章の最初は読んでるけど後半は読めてない気がする．2週目に期待．あと寿司たべたい．

2013-12-10

MLaPP アドベントカレンダー10日目：Ch.10 Directed graphical models

ML 本

ということで10日目ですが，そろそろ力尽きそうな感じでDirected graphical modelです．この章のポイントがどこにあるのか，ざっと読んだだけでは理解しきれていません．当たり前のことが書いてあるような，重要なことが書いてあるような…．細かい部分については2週目に持ち越しですかね…．とりあえず11日目に繋ぐことだけを意識！（本末転倒とも言う）

Introduction

- 同時確率分布 $p(x|\theta)$ をどうコンパクトに表現するか？
Chain rule
- $p(x_{1:V}) = p(x_1)p(x_2|x_1) \cdots p(X_V|x_{1:V-1})$
- K個の状態があるとき $O(K^2)$ の $p(x_2=j|x_1=i)=T_{ij}$ のテーブルで表現できる
- このTをstochastic matrixという
- 同様に $p(x_3|x_1, x_2)$ の三次元テーブルをconditional probability tables (CPTS)という
- 各CPTの代わりにもっと節約的な方法としてconditional probability distribution (CPS)がある
- $p(x_t=k|x_{1:t-1}) = s(W_t x_{1:t-1})$
Conditional independence
- 大きな同時確率分布を効率的に表現するためにCIを仮定する
- これは（一次）マルコフ仮定といい，チェインルールを用いると
- $p(x_{1:V}) = p(x_1) \prod_{t=1}^V p(x_t|x_{t-1})$
- これをマルコフ連鎖といい， $p(x_t = j|x_{t-1} = i)$ は状態推移行列という

Graphical models
- CIを仮定することで同時確率分布を表現できる
- グラフのノードが確率変数，エッジ（がない部分）がCIを表す

Graph terminology
- グラフ表現時の用語説明

Directed graphical model
- DGMはDAG(directed acyclic graph)で表現されるモデル
- Bayesian networkという名で知られる（ただしここでのBayesianに本質的な意味はない）
- これらはbelief networkとも呼ばれるし，causal networkとも呼ばれる
- DAGの特徴はこの前に親が来るという順序でノードが並んでいること
- これはトポロジカルオーダーと呼ばれる
- この順序のもとではノードは直前の親にのみ依存するというordered Markov propertyが定義できる

Examples

Naive Bayes classifer
Markov and hidden Markov model
Medical diagnosis
Genetic linkage analysis
Directed Gaussian graphical model

Inference

- 同時確率の主な利用法は確率的推論
- 推論問題は $\theta$ 既知として $p(x_{1:V}|\theta)$ がわかっていて
- 観測変数x_v, 隠れ変数x_hとして
- $p(x_h|x_v, \theta) = \frac{p(x_h, x_v|\theta)}{p(x_v|\theta)} = \frac{p(x_h. x_v|\theta)}{\sum_{x$

Learning

- 学習はデータが与えられたときのパラメータのMAP推定
- $\hat \theta = \arg \max_{\theta} \sum_{i=1}^N \log p(x_{i,v}|\theta) + \log p(\theta)$
Plate notation
Learning from complete data
Learning with missing and/or latent variables

Conditional independence properties of DGMs

d-separation and the Bayes Ball algorithm (global Markov properties)
Other Markov properties of DGMs
Markov blanket and full conditionals

Influence (decision) diagrams

ただの目次の羅列やんけというのはやめましょう…凹みます．

2013-12-09

MLaPP アドベントカレンダー9日目：Ch.9 Generalized linear models and the exponential family

ML 本

本日は指数型分布族に関する章で，指数型分布族とはなんぞその3のような感じです(その1, その2)．任意の指数型分布族のメンバーは生成分類器をつくるためのクラス条件付き確率密度として簡単に用いることができます．また，反応変数yが指数型分布族分布となるような識別モデルとして，一般化線形モデル(Generalized linear models; GLM)と呼ばれるモデルクラスを考えることができます．

The exponential family

- 指数型分布族が重要な理由
  - ある正則性条件の下で指数型分布族は有限サイズの十分統計量をもつ唯一の分布族．これはデータを情報損失なくある固定されたサイズに要約できることを意味し，online learningで特に重要
  - 指数型分布族は共役事前分布をもつ唯一の分布族
  - 指数型分布族はuser-chosen constraintに従う仮定が最小となる分布族(see Sec 9.2.6)
  - 指数型分布族はGLMのコア(see Sec 9.3)
  - 指数型分布族は変分推論のコア(see Sec 21.2)

Definition
- $p(x|\theta) = \frac{1}{Z(\theta)} h(x) \exp [\theta^T \phi (x) ]$
- $= h(x) \cdot \exp [\theta^T \phi(x) - A(\theta)]$
- $Z(\theta) = \int_{X^m} h(x) \exp[\theta^T \phi(x)] dx$
- $A(\theta) = \log Z(\theta)$
- $\theta$ : natural parameter or canonical parameter
- $\phi (x) \in R^d$ : sufficient statistics
- $Z(\theta)$ : partition function
- $A(\theta)$ : log partition function or cumulant function
- $h(x)$ : scaling constant (たいてい1)
- もし $\phi(x) = x$ ならnatural exponential family
- 指数型分布族は一般的に次のように書ける
- $p(x|\theta) = h(x) \cdot \exp [\eta(\theta)^T \phi(x) - A(\eta\theta))]$
- $\eta$ はパラメータ $\theta$ をcanonical parameter $\eta = \eta(\theta)$ へ写像する関数
- もし $dim (\theta) < dim (\eta(\theta))$ ならcurved exponential familyと呼ばれ，パラメータ数よりも多い十分統計量を持つ
- $\eta(\theta) = \theta$ ならモデルはcanonical formと呼ばれる

Log partition function
- 指数型分布族の重要な性質はlog partition functionの微分が十分統計量のキュムラントを生成するのに使えること
- そのため， $A(\theta)$ はキュムラント関数と呼ばれることもある

MLE for the exponential family
- 指数型分布族の尤度は
- $p(D|\theta) = \left[ \prod_{i=1}^N h(x_i) \right] g(\theta)^N \exp(\eta(\theta)^T \left[ \sum_{i=1}^N \phi(x_i)\right])$
- $\phi(D) = \left[ \sum_{i=1}^N \phi_1 (x_i), \ldots, \sum_{i=1}^N \phi_K (x_i) \right]$
- Pitman-Koopman-Darmois theorem
- ある正則性条件の下で指数型分布族は有限の十分統計量をもつ唯一の分布族である
- canonical exponential family modelの最尤推定値の計算法
- N個のiid data point $D = \{ x_1, \ldots, x_N \}$
- 対数尤度は
- $\log p(D|\theta) = \theta^T \phi(D) - N A(\theta)$
- ここで $-A(\theta)$ は $\theta$ に対して凸なので $\theta^T \phi(D)$ は $\theta$ について線形であり，対数尤度は凸
- これを最大化するためにlog partition functionの微分は十分統計量ベクトルの期待値であることを用いて
- $\nabla_{\theta} \log p(D|\theta) = \phi(D) - N E[\phi(X)]$
- 十分統計量の経験平均はモデルの理論的期待十分統計量と一致しなければならないので
- $\hat \theta$ は $E[\phi(X)] = \frac{1}{N} \sum_{i=1}^N \phi(x_i)$ を満たす
- これはmoment matchingと呼ばれる

Bayes for the exponential family

Maximum entropy derivation of the exponential family

Generalized linear models (GLMs)

- 線形回帰やロジスティック回帰はGLMの一つの例(McCullagh and Nelder 1989)
- これらは出力密度がexponential familyであり，その平均パラメータがロジスティック関数のような非線形関数を通して，入力の線形結合で表されるモデル

Basics
- GLM理解のために次のモデルを考える
- $p(y_i|\theta, \sigma^2) = \exp \left[ \frac{y_i \theta - A(\theta)}{\sigma^2} + c (y_i, \sigma^2) \right]$
- $\sigma^2$ : dispersion parameter
- $\theta$ : natural parameter
- $A$ : partition function
- $c$ : normalized constant
- たとえばロジスティック回帰では $\theta$ はlog-odd ratio
- $\theta = \log (\frac{\mu}{1-\mu}),\ \mu = E[y] = p(y=1)$
- mean parameterからnatural parameterに変換するために関数 $\psi$ を用いる．つまり， $\theta = \psi(\mu)$
- この関数は指数型分布族の分布の形状から1つに決まる
- これは逆写像であり， $\mu = \Psi^{-1}(\theta)$
- Sec 9.2.3でやったように，平均はpartition functionの微分で与えられるので
- $\mu = \Psi^{-1}(\theta) = A$
- まず，inputの線形関数を定義する
- $\eta_i = w^T x_i$
- 分布の平均はこの線形結合の可逆単調関数
- この関数はmean functionとして知られており
- $\mu_i = g^{-1} (\eta_i) = g^{-1} (w^T x_i)$
- mean functionの逆関数g()はlink functionと呼ばれる
- たとえばロジスティック回帰では $\mu_i = g^{-1}(\eta_i) = sigm(\eta_i)$
- link functionの特にシンプルなものは $g = \psi$ をもちいるものでこれはcanonical link functionと呼ばれる
- $\theta_i = \eta_i = w^T x_i$
- モデルは
- $p(y_i|x_i, w, \sigma^2) = \exp \left[ \frac{y_i w^T x_i - A(w^T x_i)}{\sigma^2} + c(y_i, \sigma^2) \right]$
- Sec 9.2.3の結果を用いると，response variabkeの平均，分散は
- $E[y_i|x_i, w, \sigma^2] = \mu_i = A$
- - 線形回帰
    - $\log p(y_i|x_i, w, \sigma^2) = \frac{y_i \mu_i - \frac{\mu_i^2}{2}}{\sigma^2} - \frac{1}{2} \left( \frac{y_i^2}{\sigma^2} + \log (2\pi \sigma^2) \right)$
    - $A(\theta) = \frac{\theta^2}{2}, E[y_i] = \mu_i, var[y_i] = \sigma^2$
  - binomial regression
    - $\log p(y_i|x_i, w) = y_i \log \frac{\pi_i}{1-\pi_i} + N_i \log (1- \pi_i) + \log (N_i y_i)$
    - $A(\theta) = N_i \log (1+e^{\theta}), E[y_i] = N_i \pi_i = \mu_i, var[y_i] = N_i \pi_i (1-\pi_i)$
  - poisson regression
    - $\log p(y_i|x_i, w) = y_i \log \mu_i - \mu_i - \log (y_i !)$
    - $A(\theta) = e^{\theta}, E[y_i] = var[y_i] = \mu_i$
- リンク関数

Name	Formula
Logistic	$g^{-1}(\eta) = sigm(\eta) = \frac{e^\eta}{1+e^\eta}$
Probit	$g^{-1}(\eta) = \Psi(\eta)$
Log-log	$g^{-1}(\eta) = \exp(-\exp(-\eta))$
Complementary log-log	$g^{-1}(\eta) =1- \exp(-\exp(\eta))$

ML and MAP estimation
- GLMの良い性質の一つとしてロジスティック回帰と同じ方法で推定が行える
- 特にlog likelihoodが次の形をしているとき
- $l(w) = \log p(D|w) = \frac{1}{\sigma^2} \sum_{i=1}^N l_i$
- $l_i \equiv \theta_i y_i - A(\theta_i)$
- チェインルールを用いて勾配ベクトルを計算可能
- $\frac{d l_i}{d w_i} = (y_i - \mu_i) \frac{d \theta_i}{d \mu_i} \frac{d \mu_i}{d \eta_i} x_{ij}$
- もしcanonical linkを用いると
- $\nabla_w l(w) = \frac{1}{\sigma^2} \left[ \sum_{i=1}^N (y_i - \mu_i)x_i \right]$
- non-canonical linkであっても実際のHessianの代わりにHessianの期待値(フィッシャー情報行列)を用いることができる
- これをFisher scoring methodという

Probit regression

- ロジスティック回帰の代わりに $g^{-1}(\eta) = \Phi(\eta)$ となる標準正規分布を用いる
- ロジスティック回帰と似ているが柔軟なモデルがつくれるなど，いくつかの利点がある
ML/MAP estimation using gradient-based optimization
Latent variable interpretation
- Random utility model (McFadden 1974, Train 2009)が引用されており，研究分野の地続き感が感じられ感慨深い
Ordinal probit regression
Multinomial probit models

Multi-task learning

- あるグループにはデータが大量にあるが，別のグループではそうではないときに，
- それぞれモデルをつくってfitさせるのは難しいのでモデルパラメータをグループ間で共通にしてしまう考え方
- ML分野では
  - multi-task learning (Caruana 1998)
  - transfer learnint (Raina et al. 2005)
  - learning to learn (Thrun and Pratt 1997)
- 統計学では
  - hierarchical Bayesian models (Bakker and Heskes 2003)~
- などと呼ばれる
Hierarchical Bayes for multi-task learning
Application to personalized email spam filtering
Application to domain adaptation

Generalized linear mixed models

Example: semi-parametric GLMMs for modical data
Comuputational issues

Learning to rank

The pointwise approach
The pairwise approach
The listwise approach
Loss functions for ranking

そろそろ詰みそう．今週はスケジュール的にきついー．

2013-12-08

MLaPP アドベントカレンダー8日目：Ch.8 Logistic regression

本 ML

ロジスティック回帰の章まできました．このあたりは自分は結構よく知っていることもあり（読む時間もないし…），まとめ方は雑になってます．多くの本では，ロジスティック回帰の説明がなされている章で大抵ロジスティック回帰そのものよりも非線形最適化の話に注力されていることが多いのですが，この本も例外ではなく，ロジスティック回帰のパラメータ推定のための方法論に多くの内容が割かれています．この手のモデルのパラメータ推定をしようとしていてHessianがお亡くなりになった経験がある方は多いと思うのですが，その手の詳しい人は特に読む必要はない印象です．むしろ次の章の一般化線形モデルの章の方が多くのモデルの関係性が記述されているので，そちらの方が見通しがよくなると思います．

Introduction

- この章は識別モデルのアプローチ
- 生成モデルと比較して直接的に $p(y|x)$ をモデル化

Model specification

- $p(y|x, w) = Ber(y|sign(w^T x))$

Model fitting

MLE
- logistic regressionのnegative log-likelihood function
- $NLL(w) = - \sum_{i=1}^N \log [\mu_i^{I(y_i=1)} \cdot (1-\mu_i)^{I(y_i=0)}]$
- $= - \sum_{i=1}^N [y_i \log \mu_i + (1-y_i) \log (1-\mu_i)]$
- これはクロスエントロピー誤差関数と呼ばれる
- 線形回帰と異なり，最尤推定値をclosed formで書けないので最適化アルゴリズムで計算する必要あり
  - gradient
  - $g = \frac{d}{dw}f(w) = \sum_i (\mu_i - y_i) x_i = X^T (\mu-y)$
  - $H = \frac{d}{dw}g(w)^T = \sum_{i} (\nabla_w \mu_i) x_i^T = \sum_i \mu_i (1-\mu_i) x_i x_i^T = X^T S X$
  - $S = diag (\mu_i (1-\mu_i))$
Steepest descent
- 最急勾配法
- $\theta_{k+1} = \theta_k - \eta_k g_k$
- ステップサイズの決定方法として一つはTaylor展開
- $f(\theta + \eta d) \approx f(\theta) + \eta g^T d$
- $\phi(\eta) = f(\theta_k + \eta d_k)$ を最小化する $\eta$ を選ぶ
- これはline minimization or line search
- line searchのジグザグをなくすヒューリスティクス momentum term
- $\theta_{k+1} = \theta_k - \eta_k g_k + \mu_k (\theta_k - \theta_{k-1})$
- 最適化コミュニティではheavy ball methodと呼ぶ
- 別の方法としてconjugate gradient
- 非線形CGはあまりポピュラーではない
Newton's method
- second order optimization methodの筆頭
- $\theta_{k+1} = \theta_k - \eta_k H_k^{-1}g_k$
- $f_{guad}(\theta) = f_k + g_k^T (\theta-\theta_k) + \frac{1}{2}(\theta - \theta_k)^T H_k (\theta - \theta_k)$
- $= \theta^T A \theta + b-T \theta + c$
Quasi-Newton methods
- Hの計算コスト超高い
- 各ステップの勾配ベクトルから情報を集めてHessianを近似
- 最も一般的なのはBFGS法
- $B_{k+1} = B_k + \frac{y_k y_k^T}{y_k^T s_k} - \frac{(B_k s_k)(B_k s_k)^T}{s_k^T B_s s_k}$
- $s_k = \theta_k - \theta_{k-1}$
- $y_k = g_k - g_{k-1}$
- BFGSはHessianの"diagonal plus low-rank"近似
- メモリを食うのでlimited memory BFGS (L-BFGS)もあるよ
Multi-class logistic regression
- maximum entropy classifierやconditional logit modelとも（いわゆるロジット）
Bayesian logistic regression

Online learning and stochastic optimization

Online learning and regret minimization
Stochastic optimization and risk minimization
The LMS algorithm
The perceptron algorithm
A Bayesian view

Generative vs discriminative classifier

- GDAの事後分布はロジスティック回帰と同じ形をしている
- しかし，GDAによる仮定はロジスティック回帰よりも強い
- これらのモデル間の違いは訓練の仕方にある
- 識別モデルではたいていconditional log likelihood $\sum_{i=1}^N \log p(y_i|x_i, \theta)$ を最大化
- 生成モデルではjoint log likelihood $\sum_{i=1}^N \log p(y_i, x_i | \theta)$ を最大化
- これらは一般的に異なる結果になる
- GDAによる正規分布の仮定が正しいなら，ロジスティック回帰よりも少ないデータで良い性能を出すが，逆も然り (Ng and Jordan 2002)
Pros and cons of each approach
- - Easy to fit
    - 生成分類器の方が簡単．ロジスティック回帰は凸最適化問題を解く必要あり
  - Fit classes separately?
    - 生成分類器では各クラスの条件付き確率密度を独立に推定．そのためクラスを増やしても再計算が必要ない．識別モデルではすべてのパラメータが相互依存しているので，クラスを増やしたら再計算
  - Handle missing features easily?
    - 生成分類器ではSec 8.6.2の方法でシンプルに扱える．識別モデルでは良い方法がない
  - Can handle unlabeled training data?
    - これはsemi-supervised learning(半教師あり学習)で関心のあるトピック．生成モデルでは取り扱いやすいが識別モデルでは難しい
  - Symmetric in inputs and outputs?
    - 生成モデルを逆向きに走らせるとp(x|y)を計算できる．識別モデルは入力データを生成できない．
  - Can handle feature preprocessing?
    - 識別モデルの大きな利点は任意の形で入力を前処理できる．たとえばxの代わりに $\phi (x)$ を用いるなど．生成モデルではこういうことは難しい
  - Well-calibrated probabilities?
    - naive Bayesのような生成モデルは強い独立性を仮定しているため，しばしばキャリブレートが難しい．識別モデルはうまくやりやすい
  - 重要なのはあなたの”道具箱”に両方入れておくこと

Model	Classif/regr	Gen/Discr	Param/Non	Section
Discriminant analysis	Classif	Gen	Param	Sec 4.2.2, 4.2.4
Naive Bayes classifer	Classif	Gen	Param	Sec 3.5, 3.5.1.2
Tree-augmented Naive Bayes classifer	Classif	Gen	Param	Sec 10.2.1
Linear regression	Regr	Discrim	Param	Sec 1.4.5, 7.3, 7.6
Logistic regression	Classif	Discrim	Param	Sec 1.4.6, 8.3.4, 8.4.3, 21.8.1.1
Sparse linear/logistic regression	Both	Discrim	Param	Ch 13
Mixture of experts	Both	Discrim	Param	Sec 11.2.4
Multiayer perceptron (MLP)/ Neural network	Both	Discrim	Param	Ch 16
Conditional random field (CRF)	Classif	Discrim	Param	Sec 19.6
K nearest neighbor classifier	Classif	Gen	Non	Sec 14.2, 14.7.3
(Infinite) Mixture Discriminant analysis	Classif	Gen	Non	Sec 14.7.3
Classification and regression trees (CART)	Both	Discrim	Non	Sec 16.2
Boosted model	Both	Discrim	Non	Sec 16.4
Sparse kernelized lin/log reg (SKLR)	Both	Discrim	Non	Sec 14.3.2
Relevance vector machine (RVM)	Both	Discrim	Non	Sec 14.3.2
Support vector machine (SVM)	Both	Discrim	Non	Sec 14.5
Gaussian processes (GP)	Both	Discrim	Non	Ch 15
Smoothing splines	Regr	Discrim	Non	Sec 15.4.6

Dealing with missing data
Fisher's linear discriminant analysis (FLDA)

最後の各モデルの表は分類／回帰，生成／識別，パラメトリック／ノンパラなどの良い整理になっているかと思います．

2013-12-07

MLaPP アドベントカレンダー7日目：Ch.7 Linear regression

ML 本

なんとか7日目を迎えることができました．1週間というのは長いものです．しかし，これでまだ1/4の章．しかも簡単な部類の章ばかりなので，MLaPPこわい．ということで線形回帰の章です．

Model specification

- 線形回帰モデル
- $p(y|x, \theta) = N(y|w^T x, \sigma^2)$
- $x$ の代わりに非線形関数 $\phi(x)$ を用いてもモデル化できる
- $p(y|x, \theta) = N(y|w^T \phi(x), \sigma^2)$
- これは基底関数拡張(basis function expansion)と呼ばれる
- 簡単な例として多項式基底 $\phi(x) = \{1,x,x^2,\ldots,x^d \}$

Maximum likelihood estimation (least squares)

- 一般にMLEを計算することでパラメータを推定する
- $\hat \theta \equiv \arg \max_{\theta} \log p(D|\theta)$
- 訓練データはi.i.d.と仮定しているので対数尤度は
- $l(\theta) \equiv \log p(D|\theta) = \sum_{i=1}^N \log p(y_i|x_i, \theta)$
- 対数尤度最大化は負の対数尤度最小化であり，
- $l(\theta) = \sum_{i=1}^N \log \left[ \frac{1}{(2\pi \sigma^2)^{1/2}} \exp \left( - \frac{1}{2 \sigma^2} (y_i - w^T x_i)^2 \right)\right]$
- $= \frac{-1}{2 \sigma^2} RSS (w) - \frac{N}{2} \log (2 \pi \sigma^2)$
- ここで，RSSはresidual sum of squaresを意味し，
- $RSS(w) = \sum_{i=1}^N (y_i - w^T x_i)^2$
- これをNで割るとmean squared error (MSE)となるので，これを最小にするため最小二乗誤差を呼ばれる

Robust linear regression

- 以上のように， $\mu=0, \varepsilon \sim N(0,\sigma^2)$ のガウス分布を用いて回帰モデルの誤差を表現するのが一般的
- そのときMLEは二乗誤差
- しかし，データに外れ値があるとき，フィッティングが悪くなる
- その理由として二乗誤差は二次式のペナルティなので，回帰直線から離れた点は近い点よりも大きな影響を与えるからである
- 外れ値に対するロバスト性を達成する方法としてガウス分布の代わりに裾の広い分布（たとえばラプラス分布）を用いる
- ラプラス分布を用いると尤度は
- $p(y|x,w,b) = Lap(y|w^Tx, b) \propto \exp (- \frac{1}{b} |y-w^Tx|)$
- 簡単のためbを固定すると $(y-w^Tx)^2$ の代わりに $|y-w^Tx|$ を用いている
- NLLは $l(w) = \sum_i |r_i (w)|$
- これは非線形目的関数なので最適化は結構難しいため，split variable trickを用いる
- $r_i \equiv r_i^+ - r_i^-$
- $\min_{w, r^+, r^-} \sum_i (r_i^+ - r_i^-)$
- s.t.
- $r_i^+ \geq 0$
- $r_i^- \geq 0$
- $w^T x_i + r_i^+ + r_i^- = y_i$
- これはLPで解ける
- 別の方法としてHuber loss関数を最小化(Huber 1964)
- $L_H (r, \delta) = r^2/2\ \ \ \ \ if \ \ \ \ \ |r| \leq \delta$
- $= \delta |r| - \delta^2/2 \ \ \ \ \ if \ \ \ \ \ |r| \geq \delta$
- これは $\delta$ より誤差が小さいとき $l_2$ と等価であり，大きいときは $l_1$ と等価
- このロス関数のメリットはどこでも微分可能

Ridge regression

- 最尤推定の課題はoverfitすること
- ガウス事前分布によるMAP推定を用いることでこの問題を改善する
Basic idea
- $p(w) = \prod_j N(w_j|0,\tau^2)$
- $1/\tau^2$ は事前分布の強さ
- MAP推定問題は
- $\arg \max_w \sum_{i=1}^N \log N (y_i|w_0 + w^T x_i, \sigma^2) + \sum_{j=1}^D \log N (w_j|0,\tau^2)$
- $J(w) = \frac{1}{N} \sum_{i=1}^N (y_i - (w_0 + w^T x_i))^2 + \lambda ||w||_2^2$
- $\lambda \equiv \frac{\sigma^2}{\tau^2}, \ \ \ || w ||_2^2 = \sum_j w_j^2$
- 第一項はMLE，第二項は二乗ノルムのペナルティ項
- $\hat w_{ridge} = (\lambda I_D + X^T X)^{-1} X^T y$
- これがリッジ回帰 or penalized least squaresと呼ばれる
Numerically stable computation
- $(\lambda I_D + X^T X)$ のリッジ回帰は $(X^T X)$ の回帰より統計的性質が良いだけでなく，数値計算上も良い性質がある
Connection with PCA
- リッジ回帰とPCAの興味深い関係
- PCAの章を読んでから戻ってこよう
Regularization effects of big data

Bayesian linear regression

- リッジ回帰は点推定するにはいいけど， $w$ や $\sigma^2$ の完全な事後分布を知りたいこともあるのでベイズ推定しよう
Computing the posterior
- Fig 7.11 「あっ！この図，PRMLでやったやつだ！！！」
Computing the posterior predictive
Bayesian inference when $\sigma^2$ is unknown

日常業務でピキピキしながらも隙間時間と夜中にMLaPPを読む日々．多くの業種でもそうだと思いますが，年末〜年度末はいろいろ嫌なことがおおいものです…．

特異値分解(SVD)

主成分分析

CUR分解 or CMD

NMF

まとめ

参考

Latent variable models

Mixture models

Parameter estimation for mixture moels

The EM algorithm

Model selection for latent variable models

Fitting models with missing data

コメント

Introduction

Examples

Inference

Learning

Conditional independence properties of DGMs

Influence (decision) diagrams

コメント

The exponential family

Generalized linear models (GLMs)

Probit regression

Multi-task learning

Generalized linear mixed models

Learning to rank

コメント

Introduction

Model specification

Model fitting

Online learning and stochastic optimization

Generative vs discriminative classifier

コメント

Model specification

Maximum likelihood estimation (least squares)

Robust linear regression

Ridge regression

Bayesian linear regression

コメント