Hatena::ブログ(Diary)

極めて個人的なメモ Twitter

Θ・)ノシ Bob#3のメモ帳です。
1972 | 12 |
2003 | 03 | 04 | 05 | 06 | 11 | 12 |
2004 | 01 | 02 | 03 | 04 | 05 | 06 | 09 | 10 | 11 | 12 |
2005 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 09 | 10 | 11 |
2006 | 03 | 04 | 05 | 06 | 07 | 09 | 10 | 11 | 12 |
2007 | 01 | 02 | 03 | 05 | 06 | 07 | 10 | 11 | 12 |
2008 | 01 | 02 | 04 | 05 | 08 | 09 | 10 | 11 |
2009 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 | 12 |
2010 | 01 | 02 | 03 | 04 | 05 | 06 | 07 | 08 | 09 | 10 | 11 |
2011 | 05 | 06 | 09 | 10 |
2012 | 02 | 03 | 05 | 06 | 08 |
2013 | 01 | 02 | 03 |
2015 | 02 |

2005-10-14

[]クラスタ基準のメモ クラスタ基準のメモを含むブックマーク クラスタ基準のメモのブックマークコメント

http://www.bi.a.u-tokyo.ac.jp/~kadota/r.html

k-means のところに cluster index の使い方が載ってる。

これはありがたい。

 k-means法などによる大量サンプルのクラスタリングの際、最も悩むのがクラスタの数をいくつにするかということです。他の分野はわかりませんが、マーケティングのデータの場合、教科書的な“自然クラスタ”なんて存在しないので、いくら散布図を眺めてもヒントは出てきません。

 そこで、どのクラスタリングが最も上手に対象を分類しているかを数字で示そうというのがクラスタ基準ですが、これはこれでいくつもの基準が提案されています。の cclust パッケージで利用できるものだけでも、calinski、cindex、db、hartigan、ratkowsky、scott、marriot、ball、trcovw、tracew、friedman、rubin、ssi、likelihood、xuindex、っと山ほどあります。

 個人的には calinski*1 をよく使います。

*1SASには pseudo F という名前で搭載されているようです

トラックバック - http://d.hatena.ne.jp/bob3/20051014