Hatena::ブログ(Diary)

糞ネット弁慶

日本声優統計学会/声優統計についてはこちら

2016-02-12

[] 「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いた 21:01  「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いたを含むブックマーク

David Blei x Owen Zhang来日記念カンファレンス「データサイエンス最先端活用」

David M. BleiOwen Zhang の話が聞けるということで行ってきた.

朝起きた瞬間から嫌な予感はしていたけれど、会場に着いたあたりで頭痛吐き気悪寒脂汗が止まらなくなってしまったため、午前中だけ聞いて帰って寝た.

メモが後半になるにつれ適当になっているのもそのため.

[基調講演1] "Probabilistic Topic Models and User Behavior" : Columbia大学 David Blei教授

資料 : Probabilistic Topic Models and User Behavior(pdf)

資料を読めば大体わかるので、いくつか載っていない点や気になった点をメモ.

[招待講演1] "鋼鉄の錬金術師を目指すNS Solutionsの取組紹介" : 株式会社新日鉄住金ソリューションズ 本橋智光様

  • 発表者について
    • データ分析にまつわる研究開発の部署ができたのはここ数年?
  • NSSOL がデータ分析を?
    • 親会社は新日鉄
      • 鉄の温度は直接測ることができない
      • 鉄の製造とデータ分析は深い関係がある
  • KDD Cup 2015 の話
    • タスク : 中国の MOOC における離脱予測
    • 2位
      • 最終日までは祝賀ムードだったのに最後で抜かれた
    • アプローチ : 各自が大量の特徴量を作る
  • データ分析にまつわる業務
    • 案件のうち、70% はテーマを考えるところから
  • 各事例の紹介
    • 製造業におけるデータ分析
      • 製造業、どんどんデータ分析にもとづく施策が導入されている
      • 詳細は非公開
      • 製造業、実験計画法などの文化があるのでやりやすそう
    • LDA で業務報告書を検索
      • トラブル事例など
      • 全文検索だとヒットしない
    • 新製品の需要予測
      • 発売から一週間の売上情報を使って一ヶ月後の出荷量を予測
      • 結構な精度で予測を実現
    • 販売戦略
      • どんなに高精度で予測ができても売上に結びつかない
      • どこがボトルネックか、どうやって売上を伸ばすか、まで必要
      • 複数のモデルを切り替えながら予測して可解釈性を高めたり
    • タクシーの需要予測
      • 空車率が高い、ベテランと非ベテランで空車率に差がある
      • 需要予測で効率化
    • マーケティング施策
    • Jリーグ・マッチスケジューラー (日程くん)
      • 様々な制約条件 (ホーム/アウェイが続くと困る、遠征ばかりだと困る、など) がある中で試合の日程を組む
      • 天皇杯が終わらないと試合予定が組めないのでいつも待っている
  • その他
    • 自社サービス : Data Veraci
    • Data Robot ともやっている.作ってくるモデルがすごい.
  • 質疑
    • Q. モデルの解釈性とブラックボックス化について
      • A. 現場が強いところは解釈性を求める
    • Q. (自分) 実案件において精度をどこまで追求するのか、やり始めるとキリがないタスクであるのでどのあたりで見切りをつけるのか
      • A. 現状の予測を置き換えるのならばそれと同等まで、モデルが存在しないタスクであれば現場の肌感と合う程度まで
    • Q. 分析と事業への反映のスピード感はどうか

[招待講演2] 事業成長とデータとの付き合い方 : 株式会社エウレカ 中村裕一

  • pairs(ペアーズ) - Facebookを利用した恋愛・婚活マッチングサービス の話
  • 様々なデータがある
    • デモグラ、位置、チャネル、時系列、行動、購買
  • 豊富なデータを事業開始当時から活用できたか?
    • No
    • 様々な課題があった
      • 量不足、質不足、基準が不明確、最終的な利用方法が不明
    • やりたいことは色々あったが最初からは無理
  • まずは分析するためのデータを追う
    • 「現状のデータが高度な分析を行うに値するデータであるのか」をチェックするところから始めた
    • 管理画面を作って基礎集計を表示する
      • 例 : ユニークユーザ、アクティブユーザなど
      • 「今何を見るべきか」に集中した
    • ある程度規模が大きくなってきたらようやく分析が可能になる
  • 規模拡大に伴うシステムの変化
    • 当初の SQL + PHP から Redshift へ
    • Go によるフルスクラッチにともない、 BigQuery で一元管理
      • 共通化によって各種 KPI の定義がバラバラだったものを統一
  • 結論 : データは武器にも弱点にもなる
  • 質疑
    • Q. (自分) 施策の精度が上がることによりマッチングが効率化されてしまったらサイトでお金を落とさなくなるのではないか
      • その場での思いつきだったけど、例えば人材紹介サービスであればマッチングによる成功報酬があるが、出合い系だとそういうわけでもないので難しいのでは、というのは真面目に考えた
      • A. 究極的にはそうだが、現状はそこまでなるとは考えていない.マッチングの精度が上がることを目指している.
トラックバック - http://d.hatena.ne.jp/repose/20160212

2016-01-31

[] Collaborative Denoising Auto-Encoders for Top-N Recommender Systems (WSDM 2016) 読んだ 21:49  Collaborative Denoising Auto-Encoders for Top-N Recommender Systems (WSDM 2016) 読んだを含むブックマーク

(pdf)

手法

ユーザの評価したアイテム集合にノイズを載せ,それを復元する AutoEncoder (AE) を学習する.

その際,入力層にユーザ固有のノードを1つ追加し,その上で全隠れ層に対してユーザノードから(ユーザ固有の)重みを持った枝を張る.

これがただのAEによる推薦と違う,とのこと.

あとは損失関数をpointwiseにするかpairwiseにするかとか提案されている.

読解力が極端に悪いせいなのか,えらくシンプルな論文だった.

実験の章,3つのデータセットで試したはずの実験が2つの結果の表しか掲載されていないことだけがよくわからない.

トラックバック - http://d.hatena.ne.jp/repose/20160131

2016-01-20

[] Modeling Intransitivity in Matchup and Comparison Data (WSDM 2016) 読んだ 22:38  Modeling Intransitivity in Matchup and Comparison Data (WSDM 2016) 読んだを含むブックマーク

概要

Modeling Intransitivity in Matchup and Comparison Data (WSDM 2016)(pdf)

二人のプレイヤーが戦い,勝敗が決まるゲームのモデリングにおいては通常,各プレイヤーの強さは一元的である.よって,推定されたモデルでは推移律が成立する(aがbより,bがcより強いならば,aはcより強い,といった関係).

この研究では,intransitivity(反推移性) を導入し,3すくみの関係をモデリングする(例 : じゃんけんの手).

提案手法 : blade-chest-dist-model

モデルは非常にシンプル.

まず,ベースとして Bradley-Terry model (BTモデル) を用いる.

これは,プレイヤーa,bについて

とする.

これは,プレイヤーごとの強さがあり,一方が勝つ確率は強さの差に比例する,というモデル.

このモデルを発展させるために次の例を考える.

今,二人のプレイヤー a,b が剣 (blade) を持って戦っているとする.この時,剣だけでなく,「胸 (chest) 」を導入する.そして,各プレイヤーは胸を攻撃されたら負ける,という状況を考える.

すると,勝敗は「a の剣から b の胸までの距離」と「b の剣から a の胸までの距離」のどちらが短いかによって決定されることになる.

これを式で表すと

となる.これが提案する blade-chest-dist-model.

あとはユークリッド距離内積,2つのモデル

提案する.ここで,などのベクトルは好きな次元で表現する.

あとはSGDで尤度最大化.

実験

データが面白い.

まず人工データでじゃんけん(rock-paper-scissors game) と,もう少し複雑な Rock-paper-scissors-lizard-Spock で実験.推定したベクトル可視化すると3すくみの関係が見える.

続いて Video Game でこの関係が成立するかどうかを示すために Starcraft2 Wings of Liberty,Starcraft2 Heart of the Swarm,DotA2で実験.

前者2ではBTモデルより有意に改善.DotA2で改善しなかったのはチーム対チームのゲームだからではないか,という考察.

プロスポーツ再現するか,ということでテニスのデータで実験するもBTモデルと大して変わらず.理由として (1) プロは弱点を作らずオールラウンドに強くなるから, (2) 試合形式がトーナメントだから,という考察.

続いて,プレイヤー間の強さの関係性 を推定する実験.スト4のキャラクター間の matchup を正解データとするとこちらも有意に改善.

最後にpariwiseなデータではなくランキング全体を推定する(並び替える)実験.BTモデルより(幅は小さいものの)改善.

去年の夏頃,「3すくみのモデルがあると面白いのでは」と人と話をしていて,「ではどうやってその3すくみの関係を定式化するのか」というところで話が止まっていた.2つの要素の比較で解くという,シンプルなモデルであり,読んでいて楽しかった.

トラックバック - http://d.hatena.ne.jp/repose/20160120

2016-01-19

[] Your Cart tells You: Inferring Demographic Attributes from Purchase Data (WSDM 2016) 読んだ 23:30  Your Cart tells You: Inferring Demographic Attributes from Purchase Data (WSDM 2016) 読んだを含むブックマーク

Your Cart tells You: Inferring Demographic Attributes from Purchase Data(pdf)

概要

購買履歴からユーザの属性(年齢,性別,結婚状況,収入,学歴)を同時に推定する.

つまり,複数の属性を同時に推定する multi-task multi-class prediction に取り組む.

手法 : Structured Neural Embedding (SNE)

至ってシンプル.

  • ユーザ が購買した商品を bag-of-items として持つ
  • また, の属性を 1-hot encoding する
    • 例えば,性別が二種類,年齢が四種類,結婚状況が二種類だとしたらそれぞれをラベル数だけのベクトルとしてみなす
    • その上で2+4+2次元のベクトルをすべてつなげて8次元のベクトル にする
  • 各商品を 次元に embedding する
  • bag-of-items すべてを embedding したら ある操作(pooling) を行って一つの 次元ベクトルにまとめ, user representation とする
    • pooling はいくつか提案しているが,全ベクトルの平均を取る average pooling が最も良かった
  • あとは user representation を入力に, を予測する log-bilinear を学習する
    • ここは構造学習のように解く
    • つまり,全属性組み合わせ (上の例だと 2 * 4 * 2) を分母に,特定のラベルを分子に持つ softmax を計算していく
    • 全組み合わせだと重いので negative sampling もする (が実験では有効性が示されていない)

追加のモデルとして user representation を作るまでは共通で,属性ごとに学習器を作る Joint Neural Embeddingも作ってはいる.が,こちらは属性間の相関関係が入っていない.

実験

タスク

  • ユーザの一部の属性が観測されている時に残りの属性を予測する partial-label prediction
  • 予測するユーザの属性は全く分からない new-user prediction

の二つ.前者については,既にわかっている部分を固定した上で残りを探索する.

予測対象は性別(男女),年齢(若者,青年,中年,老人),結婚状況(独身,既婚者),収入(極貧,貧乏,中間,富裕),学歴(博士,修士,bachelor,college,高卒,中卒).

比較手法として,学習データ中の最頻属性,user-item への SVD + logreg, SVD + structured logreg, JNE を用意.

どの実験でも提案手法が勝っている.

Embedding すればよし,みたいな話だった. item を Embedding した結果がどうなっているのかが知りたい.普通の item clustering では見えない,属性が反映されたクラスタが構築されているとかっこいいと思う.

トラックバック - http://d.hatena.ne.jp/repose/20160119

2015-12-30

[] The Web as a Jungle: Non-Linear Dynamical Systems for Co-evolving Online Activities (WWW 2015) 読んだ 17:58  The Web as a Jungle: Non-Linear Dynamical Systems for Co-evolving Online Activities (WWW 2015) 読んだを含むブックマーク

The Web as a Jungle: Non-Linear Dynamical Systems for Co-evolving Online Activities (pdf)

冬コミのモデルに使おうとして読んだ.

概要

Lotka-Volterra の捕食者 - 被食者のモデルを使う.

タイムスタンプつきの各キーワードの検索数 (実験では Google Trendの値) を入力として,生態系における「種と餌,種の競争関係,種の成長」を「各キーワードがユーザのリソースを奪いながら成長する」というアナロジーで推定する.

これによって,どのキーワードがユーザリソースを奪い合っているか,その後どのように成長するかがわかるようになる.

これを声優でやると

今回やりたかった方向性は「ファンがどのように声優を乗り換えているか」「声優がどのようにファンを奪っているか」を見たかった.

Wikipediaの各声優アクセス数データを使うことによって,声優ユニット内のメンバーでどのように人気を奪い合っているかがわかるのではないか,という気持ちでいた.

手法

Lotka-Volterra のモデルを拡張し,周期成分まで抽出する.

式をまとめて書くと,

C が実測値,e が周期成分.P が人気度.a で2つの種の間における力関係を表す.

周期成分の \tau は t を時間幅で mod を取ったものを使う.

推定

まずは e を抜いた状態で C ( = P) を前向きに推定する.

その上で C と実測値との誤差を取って e を計算していく.その際 e は独立成分分析で独立成分を抜く.

独立成分の数をパラメーターフリーにするために,推定時の誤差計算をRMSEにせず,Huffman Coding した上で MDS を使って最適な独立成分数を決める.

実装

推定,再帰的に項が入るので勾配計算が死ぬほど面倒.元論文では特に示されていない.

著者によって公開された実装を見ると,Non-Linear Least-Square Minimization and Curve-Fitting for Python — Non-Linear Least-Squares Minimization and Curve-Fitting for Pythonを使って推定をしている.

独立成分の数,実装を見る限り最小値と最大値を決めてその中で最も良いものを採用しているように見える.確かにパラメーターフリーではあるが.

どううまくいかなかったか

自分でも実装してみた.

しかし元論文のように綺麗にRMSEが下がらない.「独立成分抜きで推定」→「独立成分を抽出」の繰り返しの二度目で学習が進まなくなってしまう.

パラメータにも様々な制約があるのでややこしいのかもしれないが,よくわからないままだった.

Pythonをまともに書くのもはじめてなので,識者の見解が欲しい.

元実装と使用したライブラリを揃えては見たが,しかしでは元実装ではどうなっているだろうかと確認してみると謎の絶対値を取る操作や,謎の最大値で固定する操作が行われており,論文そのままの実装ではない雰囲気を感じた.

これを諦めたのが先週水曜あたり.もっと前から準備をしたい.

トラックバック - http://d.hatena.ne.jp/repose/20151230

2015-12-23

[] 冬のコミックマーケットC89 12月29日 火曜日 東へ60-aで「声優統計 第七号」を出します 22:25  冬のコミックマーケットC89 12月29日 火曜日 東へ60-aで「声優統計 第七号」を出しますを含むブックマーク

日本声優統計学会としての七度目のコミケ参加です.お誕生日席.

声優統計第七号」内容

価格は500円を予定しています.

既刊

も持ち込みます.七号以外は夏コミでの在庫分のみです.

おまけ: 声優統計ホログラムステッカー

今回のステッカーは色が違います.きっと当日までには届くはず.

取り置き

今回も取り置きを行います.以下のフォームからお願いします.

日本声優統計学会取り置き

今回,取り置きは14時までとさせていただきます.

それでは,12月29日火曜日,東へ60-aでお待ちしています.

トラックバック - http://d.hatena.ne.jp/repose/20151223