Hatena::ブログ(Diary)

糞ネット弁慶

日本声優統計学会/声優統計についてはこちら

2012-09-17

[] アニソンの歌詞から作詞家を推定する問題としてのベンチマークをやってみる 21:16  アニソンの歌詞から作詞家を推定する問題としてのベンチマークをやってみるを含むブックマーク

目的

とりあえずどれぐらいでできるものかベンチマークとしてやってみる.

既存

ナイーブベイズ分類器の実装とか 〜畑さん/こだまさん問題〜 - naoya_t@hatenablog

ナイーブベイズ分類器の実装とか(その2)〜新アルバムの楽曲で畑さん/こだまさん分類器を試してみた〜 - naoya_t@hatenablog

データ

作詞家データ数
大森祥子126曲
森由里子176曲
こだまさおり187曲
くまのきよみ200曲
畑亜貴377曲

この5クラス分類に取り組む.

特徴量は歌詞に含まれる名詞/動詞/形容詞の頻度.

モデル

普通にSVM

LIBSVM -- A Library for Support Vector Machines

SVM実践ガイド (A Practical Guide to Support Vector Classification) - 睡眠不足?!を読みつつgrid.pyを使う.スケーリングは[-1, 1]でやると「スパースだから[0, 1]でやれや」と教えてくれるので[0, 1]でやる.

設定

データを3分割,1/3をtest,2/3をtrainにしてtrainは5-fold cross validation.都合3つのモデルができる.

結果

まずは学習.

python ./tools/grid.py ../../data/libsvm/song_all.tsv_train_1.scale

512.0 0.00048828125 71.669

python ./tools/grid.py ../../data/libsvm/song_all.tsv_train_2.scale

2048.0 3.0517578125e-05 68.7237

python ./tools/grid.py ../../data/libsvm/song_all.tsv_train_2.scale

2048.0 0.0001220703125 74.4741

だいたい7割ぐらい.

続いて予測.

./svm-predict ../../data/libsvm/song_all.tsv_test_1.scale song_all.tsv_train_1.scale.model result1

Accuracy = 76.4873% (270/353) (classification)

./svm-predict ../../data/libsvm/song_all.tsv_test_2.scale song_all.tsv_train_2.scale.model result2

Accuracy = 80.17% (283/353) (classification)

./svm-predict ../../data/libsvm/song_all.tsv_test_2.scale song_all.tsv_train_2.scale.model result3

Accuracy = 75.6374% (267/353) (classification)

こちらもだいたい7から8割で予測できている.

誰をどう間違ったかの表も貼る.

モデル1

predict/ans畑亜貴くまのきよみこだまさおり森由里子大森祥子
畑亜貴12115141015
くまのきよみ150251
こだまさおり114121
森由里子204407
大森祥子001118

モデル2

predict/ans畑亜貴くまのきよみこだまさおり森由里子大森祥子
畑亜貴11498139
くまのきよみ754234
こだまさおり115110
森由里子321405
大森祥子000124

モデル3

predict/ans畑亜貴くまのきよみこだまさおり森由里子大森祥子
畑亜貴12115191413
くまのきよみ449230
こだまさおり003600
森由里子025408
大森祥子000121

その他

パラメータの解釈とか特徴語の話とかは今度やる.

トラックバック - http://d.hatena.ne.jp/repose/20120917/1347884210