On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach

分類器の比較に関する注意事項をまとめた論文「On Comparing Classifiers: Pitfalls to Avoid and a Recommended Approach(SALZBERG 1997)」を読んだ. この辺はちゃんと学んで起きたかったが, 面倒で(あんまり面白くないし)放置していた.

概要としては, 「新しい分類器を提案するときに有意差検定をみんなしてるけど, こういう落とし穴があるよー」という論文. 落とし穴として色々挙げられていた.

多重検定の問題

有意水準0.05で実験しても500個のデータセットに対して検定してしまうといくつかは有意差が出てしまう.そのような場合は, Bonferroniの調整などを用いて有意水準を調整する必要がある.

t-testの問題

分類器の比較としてpaired t-testが用いられていたりするが, paired t-testの仮定としてそれぞれのデータセットは独立であるという前提がある. しかし, 元のデータセットからランダムにテスト集合と訓練集合を作る場合などはこの仮定が満たされず, 第一種の過誤が大きくなってしまうことがある. 解決法として異なるテストを使うことが提案されている. Statistical tests for comparing supervised learning algorithmsで詳しく検証されてるっぽいが読んでない.

公開データセットの問題

UCI repositoryなどの公開データセットを用いて手法の比較がなされているが, 例え有意水準0.01で検定しても100人がその検定を行なってしまうと誰かがたまたま有意差を検出してしまう. また, 公開データセットは分類問題の一般的な代表として不十分な面があるため, 結論の過度な一般化は禁物である.

チューニングの問題

パラメーターチューニングをいい加減にしている研究がわりとある. テストデータとは独立にパラメーターを決定すべきだ. 特にパラメーターごとにテスト集合に対してテストを行い最善のものを持ってくるとかはぼーっとしてるとやりそうなので気を付けたい.


だいたいこんな感じだろうか. 推奨する比較手順などもありわかりやすかった. 標準的なpaired t-testとその問題点はこのスライドにまとめられていた.

以前から感じていた疑問の一部を解消できてすっきりしたが, 更に勉強する必要を感じる. あまり興味がないからしらばくやらないけど.