Hatena::ブログ(Diary)

小人さんの妄想 このページをアンテナに追加 RSSフィード Twitter

2011-08-02

判別分析でツンデレキャラを見分けよう!

アニメに登場するツンデレ・ヒロインの特徴は「ちび、貧乳、髪と目が色鮮やか、釣り目」だと言われています。

その道に詳しい人であれば、容姿を一目見ただけでツンデレを見抜くことができるのですが、素人目には簡単に見分けがつきません。

そこで、ヒロインの外見的な特徴に基づいて、ツンデレを判別する方法を考えてみました。

方針

アニメワンツンデレキャラランキングから、上位の人気ヒロインをピックアップしました。

>> http://anime.biglobe.ne.jp/userranking/chara/6602/

比較対象として、同じアニメに登場するツンデレではないキャラクター、非ツンデレキャラを適当に選び出しました。

こうして作った「ツンデレグループ」と「非ツンデレグループ」をお手本にして、未知のヒロインがどちらのグループにより近くなるかを見極めました。

2つのグループへの近さを測る方法は、多変量解析の判別分析という手法を用いました。

分析に用いたデータは、次の通りです。

f:id:rikunora:20110803021455p:image

■ 身長・体重・バスト

何人かのキャラクターについては身長、体重、スリーサイズデータが公開されていました。

ところが、身長データは入手できても、体重、スリーサイズは不明なケースが少なくありません。

下の表は身長・体重・スリーサイズデータで、青で書いた部分が欠損値です。

灰色で塗ったのは、データが全く入手できなかったため、分析対象から外したキャラクターです)

f:id:rikunora:20110803021456p:image

表の上の欠損値を埋めるべく、他のキャラクターの傾向から体重、バストを推定しました。

推定には回帰分析を使いました。(Excelで LINEST関数を用いた)

ツンデレグループについて、身長と体重のわかっているキャラクターのデータをプロットすると、このようになります。

f:id:rikunora:20110803021457p:image

このグラフにある回帰直線から、身長だけがわかっているキャラクターの体重を推定しました。

同様の方法でバストも推定できます。

f:id:rikunora:20110803021458p:image

ツンデレグループについて、同様のことを行うと、こんな風になります。

f:id:rikunora:20110803021459p:image

f:id:rikunora:20110803022921p:image

2つのグループを比較すると、確かにツンデレグループの方が小柄に寄っているので、ツンデレの判断材料として使えそうです。

ここではもともと欠損の多かったバストのデータは捨てて、身長と体重を使うことにしました。

(このデータからだと体重とバストの意味が重なってしまうので、バストのデータが有効に働かないのです)

■ 髪の色・瞳の色

キャラクターの髪の色と、瞳の色を、主に公式ホームページ画像から取得しました。

色はHSVで3つの数字によって表されるデータですが、今回は色相のみに着目し、残りの2つの数字は捨てています。

色相は0〜360の範囲の数字ですが、問題なのは0と360がつながっていて、輪になっているということです。

そこでデータのプロットを見ながら、2つのグループが分離しやすいように色相「回転」しました。

具体的には、(元の色相+200)÷360の余り、をデータに用いました。

f:id:rikunora:20110803023026p:image

こうして見ると、髪の色はツンデレの判断材料に使えそうです。

ざっと見で、ツンデレ=赤〜黄系統、非ツンデレ=青系統、といった傾向がありそうでした。

一方、瞳の色は、どのように回転しても、あまり判断材料として使えそうにありませんでした。

f:id:rikunora:20110803023113p:image

見た感じでは、瞳の色はツンデレ、非ツンデレを問わず、ばらばらに分かれているようです。

■ 釣り目度

なるべく正面に近い顔画像で、2つの目の上に中心線を描いて、その中心線同士の内積(Cosθ)を求めました。

f:id:rikunora:20110803023201p:image

釣り目(V字型)の場合は符号をプラスに、垂れ目(Λ字型)の場合は符号をマイナスにとってあります。

f:id:rikunora:20110803023457p:image

結果をプロットしたのがこのグラフで、全体として「ツンデレが釣り目」傾向がかなり良く出ています。

■ 判別分析

判別分析とは簡単に言えば、あるデータが各グループの平均にどれだけ近いのか、その近さを測る分析手法です。

あるデータの「ツンデレグループ平均」までの近さと、「非ツンデレグループ平均」までの近さ、

この2つを比べて、データがどちらのグループにより近いのか、判別できるわけです。

近さの物差しとして、ここでは「マハラノビスの距離」という指標を用いました。

計算の経過を省略して、いきなり結果を示すと、こんな風になります。

f:id:rikunora:20110814220140p:image

これを判別スコアの順番に並べ直すと、こうなります。

f:id:rikunora:20110814220222p:image

概ねツンデレ属性が強い順番に並んでいるようですが、幾つか当てはまりの悪いケースも見受けられます。

たとえば「中野 梓」は人気ツンデレキャラですが、この結果だけからすると、非ツンデレであると判断されています。

「朝比奈 みくる」はもともと非ツンデレキャラですが、値がプラスなのでツンデレに判別されています。

三千院ナギツンデレか?

未知のヒロインデータを分析結果にかけて、ツンデレかどうかを判別してみましょう。

試しに今回のツンデレキャラランキングの中から1人だけ、サンプルを抜き出してみました。

f:id:rikunora:20110803023606p:image

このキャラクターは当然、ツンデレだと判別されるべきなのですが、果たして結果はどうなるでしょうか?

f:id:rikunora:20110814221301p:image

確かに、間違いなさそうですね。

※ 判別分析に用いたエクセルファイルを置いておきます。興味のある方はどうぞ >> Tundere.xls

※ (8/14)Excelの内容を更新しました。

■ 結論

ツンデレ属性は「身長、体重、髪の色相、釣り目度」によって見分けが付く。

T_NAKAT_NAKA 2011/08/05 09:47 大変面白い内容でした。最近の田口メソッド=品質工学も「マハラノビスの距離(MD)」の話題が多いようですね。
http://www.engineering-eye.com/rpt/c005_qe/10.html
私はハード屋なので、マハラノビスの距離はあまり使ったことがなくて、EXCELでどう計算するのか?本記事のデータで勉強させて下さい。基本的には共分散行列を計算するということになるんでしょうね。

rikunorarikunora 2011/08/07 22:30 こんな内容でお恥ずかしい(^^;
ただ、まじめな目的に適用すれば、ちゃんと品質管理などに役立つはずです。
実は上の記事には肝心の判別分析の計算方法が書いてありません。いま、計算に用いたEXCELをアップしました。
http://brownian.motion.ne.jp/memo/Tsundere.xls
ちょっと読み取りにくいですが、ご参考までに。

T_NAKAT_NAKA 2011/08/10 16:18 EXCELのUPありがとうございました。早速勉強させていただきます。

rikunorarikunora 2011/08/14 01:44 EXCELに1つバグを発見しました!
? 判別方式のところに定数項が入っていません。
定数項というのは、ウィキペディアの「判別分析」に次のように示されている箇所です。

4. これにより各変数にかかる係数を求めることができる。
定数項は、a0=-1/2[a1{x1(第一群平均値)+x1(第二群平均値)}+…+an{xn(第一群平均値)+xn(第二群平均値)}]

今ごろになってすいません。
幸い判別結果自体は大きく違ってはいなかったのですが、間違いは間違いなので。
修正して、アップし直します。

rikunorarikunora 2011/08/14 17:48 EXCEL内容を修正しました。今度こそ大丈夫だと思います。

papuchipapuchi 2014/01/09 20:13 大変面白く拝見しました。
データ解析が本当に好きなんですね。。
楽しみながらやるってのはいいですね
今後も頑張ってやって下さい。

rikunorarikunora 2014/01/14 10:59 ありがとうございます!
なんといいますか、身近なところにデータが見つかると、とても嬉しくなるんですよね。
これからも楽しく続けます。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/rikunora/20110802/p1