最近,流行っている学習機械の一つ
サポートベクターマシン
ベイズ分類と同じように,正当とスパムそれぞれのメールのサンプルを集める。一つのメールを単語の集合から成るベクトルとしてとらえ,ベクトル空間上にマッピングする。このとき,空間上のどこで両者を切り分けるかを判断するために使われるのがSupport Vector Machine(SVM)である。SVMでは,二つの空間に属するそれぞれの事例のうち最も近いものを取り出し,その両者からの距離が最も大きくなるように境界線を引く。
(出典:日経BP IT Pro)
SVMの基本アイデアは上記のような線形分離 *1 である。しかし近年SVMは、カーネル法による拡張で非線形分離問題も効率的に解ける事が判り、大きな注目を集めている。具体的にはデータを非線形写像 Φ で高次元特徴空間に写像し分離超平面で線形分離する、という方法である。
ただしこの種の非線形写像 Φ の形を直接求めるのは困難なため、代わりに目的関数や識別関数の計算に必要な カーネル関数 K(x1,x2)=Φ(x1)T Φ(x2) の形を決め、カーネル計算だけで分類を行う。これをカーネルトリックという。
(高次元の困難な計算を、数学的手法で低次元のより容易な計算に変換するという意味で、Latent Semantic Indexing (LSI法)の特異値分解と似たような印象を受けるかもしれない。ちなみにLSI法と等価なPCA(主成分分析)は、SVM同様カーネル法で拡張し非線形問題に適用する事ができる。)
*1:グラフ上の点の間にマージン最大となる境界線(二次元の場合:直線、三次元の場合:平面)を置いて分類する方法