Hatena::ブログ(Diary)

糞ネット弁慶

日本声優統計学会/声優統計についてはこちら

2016-08-07

[] 夏のコミックマーケット C90 8月12日 金曜日 西M02-bで「声優統計 第八号」を出します 19:38  夏のコミックマーケット C90 8月12日 金曜日 西M02-bで「声優統計 第八号」を出しますを含むブックマーク

日本声優統計学会としての八度目のコミケ参加です.今年は暑い.

今年は声優島そのものが西ホールに配置されているので注意が必要です.

声優統計第八号」内容

価格は500円を予定しています.

既刊

五号,六号も在庫があるだけ持ち込みます.

おまけ: 声優統計ホログラムステッカー

多分送った荷物に入っている.

取り置き

今回も取り置きを行います.以下のフォームからお願いします.

日本声優統計学会取り置き

今回,取り置きは14時までとさせていただきます.

それでは,8月12日金曜日,東 M02-b でお待ちしています.

トラックバック - http://d.hatena.ne.jp/repose/20160807

2016-07-24

[] From Online Behaviors to Offline Retailing (KDD 2016) 読んだ 13:19  From Online Behaviors to Offline Retailing (KDD 2016) 読んだを含むブックマーク

From Online Behaviors to Offline Retailing

オンラインの行動とオフラインの購買を同時に分析する.すなわち,「オフラインの行動とオンラインの行動にはどういう関係があるか」がわかる.

また,実験では「直近での検索行動を用いることによりその後の購買で何を買うか」を予測している.

提案手法 : Online to Offline Topic Model (OTOTM)

入力として用いるのは次の二つ.

  • オンラインにおける各ユーザの検索履歴 (単語集号)
  • オフラインにおける各ユーザの購買履歴 (ブランド集合)

またこれ以降,各ユーザの検索履歴および購買履歴は bag-of-words / bag-of-brands として取り扱う.

すなわち,系列性や順序関係は考慮しない.

まずこれを LDA でモデリングすることを考えてみると,

  • online topic が生成されて
    • 単語 で生成される
  • offline topic が生成されて
    • ブランド で生成される

という過程が思いつくわけだが,これでは online と offline の関係がわからない.

そこで提案手法である OTOTM では

  • にもとづき online topic が生成される
    • online topic にもとづき単語 から生成される
  • にもとづき online topic が生成される
    • online topic にもとづき offline topic から生成される
      • offline tpic にもとづき,ブランド から生成される

となる.これにより, online と offline の関係が明らかになる.推定は Gibbs sampling.

しかし,これだけでは

  • offline での購買予測に online での topic を全て使っている
    • 周辺化する時に全 topic を使うことを指している
  • online での行動のほとんどは offline での購買に関係していない

という問題が生じる.

そこで, lift と名付けた指標を導入する.これは とする.

この値が大きいほど online topic t は offline topic l と関係が強い.

あとは予測時に lift がある程度以上の topic のみを考慮する.

トラックバック - http://d.hatena.ne.jp/repose/20160724

2016-06-23

[] DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks (KDD 2016) 読んだ 08:02  DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks (KDD 2016) 読んだを含むブックマーク

DeepIntent: Learning Attentions for Online Advertising with Recurrent Neural Networks

入力された検索クエリに対して最も適切な文言の広告を出すタスク

検索クエリおよび広告を単語の系列データとして, RNN などにもとづく neural network に通して適当な空間に写像し,その空間上でのクエリ/広告の内積を計算し,その値がクリックされたペアであれば大きくなるようにする.

モデル

  • 個の単語 から検索クエリ が構成されており,総単語数は であるとする.この時各単語を one-hot-encoding するとクエリ の行列になる.
  • 各単語 次元に word embedding し, とする.これにより,行列は となる.
  • 続いて,各単語の埋め込み について bidirectional RNN (BRNN) を適用し, 次元のベクトルに変換する.これにより,行列は となる.
  • 最後に, mean pooling や max pooling, そして attention (RNNの文脈で用いられるものとは異なり,線形和) を用いて行列を 次元のベクトルにする.
  • この操作を広告 にも適用することにより,広告と検索クエリが同じ次元数のベクトルに変換される.
  • あとは,クリックされた(クエリ,広告)のペア 内積がクリックされていないペア 内積より大きくなるような目的関数 を最大化する.またこの時には 個の negative sampling を行っている.

まとめると -> word embedding -> -> BRNN -> -> pooling / attention -> という流れ.最後の pooling でクエリの単語長 を潰す.

attention の重みはこの作りでいいのだろうかという疑問がある.

トラックバック - http://d.hatena.ne.jp/repose/20160623

2016-06-10

[] Just One More: Modeling Binge Watching Behavior (KDD2016) 読んだ 22:11  Just One More: Modeling Binge Watching Behavior (KDD2016) 読んだを含むブックマーク

Just One More: Modeling Binge Watching Behavior

このタイトルを見るまで "binge-watching" という単語を知らなかった.ある番組などにハマってまとめて見てしまうことらしい.

論文では VOD (Video On Demand) サービス (特にこのサイトは定額見放題ではなく話数ごとに購入が必要なものである) について,ユーザのまとめ見のような行動をモデル化する.

定義

セッション」とは,一本以上の動画を見ており,その操作の間隔が 1 時間未満であるものとする.

ここからは,1 つのセッションに何本の動画が視聴されているか,について調べていく.

読み飛ばしているのだと思うけど,セッションの定義はこれだけでは不十分であって,正確には「同一デバイスにおいて同一の番組シリーズを視聴しており,操作の間隔が1時間未満のものの集合」ではないだろうか (というのも,後段の分析においてセッションは同一番組を見続けることが仮定されているように思う).

データに対する観察

- すなわち,Binge Watching がデータに存在している

  • 曜日別の 1 セッションあたりの視聴本数を見ると週末にかけて伸びる傾向がある
  • 平日・週末ごとにセッションの開始時刻ごとの視聴本数を見ると週末の夜ほど視聴本数が多くなる
  • モバイル端末による1セッションあたりの平均視聴本数は 1.58 本であるのに対し,テレビでは 2.00 本である
  • それぞれの番組は 22 分と 44 分のものに分類される

- 44 分のものでは平均 1.79 本, 22 分のものでは平均 2.54 本視聴されている

  • 視聴行動は番組のジャンルによっても異なる

- コメディーは伸びる

- 同じコメディーでも「ビッグバン★セオリー」より「ママと恋に落ちるまで」の方が伸びる

- Table 1 に Walking Dead とか Breaking Bad とかタイトルが入ってるのが面白い

  • またこのデータにはあるドラマについて特定の話数(三話など)までしか配信していないためにユーザがそこまで見尽くしてしまう censoring (以降打ち切り) と呼ばれる現象が起こっている

- 全セッションのうち 20.9 % において打ち切りが起こっている

- censoring も当然番組ごとに起こりやすさが異なっている

手法

方針としてはポアソン分布を用いる.もっともシンプルなモデルはセッションにおける視聴本数パラメータ[

tex:\lambda]を用いて

とする.

続いて打ち切りをモデル化する.セッションで視聴可能な最大の動画数であり,セッションが打ち切られたことをとして表し,セッション本あったとするとその確率は

となる.

続いてポアソン回帰に発展させる.つまり,ポアソン分布のパラメータを共変量を使って回帰する.今,セッションにおける次元の共変量を考え,とする.

更にユーザの多様性などを考慮するために単一のポアソン分布でなく個の混合ポアソン分布を導入して結果的に

とする.これが提案モデル.

あとはEMでパラメータであるを推定していく.

実験

「そのセッションで何本見るか」「次の話を見るか」の予測実験.

ポアソン分布のパラメータを回帰するための共変量には

を 1-hot encoding したものを用いる.

精度が改善するのが確認できた.

ポアソン分布の混合数については 3個が良い.

Binge Watching に関するモデルから得られた考察

三つのポアソン分布のうち,一つはすごく短いセッション,一つは平均的なセッション,一つは非常に長いセッションを表現している.

あとはタイトル別,曜日別,デバイス別の視聴傾向の差が述べられている.

トラックバック - http://d.hatena.ne.jp/repose/20160610

2016-02-12

[] 「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いた 21:01  「David Blei x Owen Zhang来日記念カンファレンス『データサイエンス最先端活用』」を (半分だけ) 聞いたを含むブックマーク

David Blei x Owen Zhang来日記念カンファレンス「データサイエンス最先端活用」

David M. BleiOwen Zhang の話が聞けるということで行ってきた.

朝起きた瞬間から嫌な予感はしていたけれど、会場に着いたあたりで頭痛吐き気悪寒脂汗が止まらなくなってしまったため、午前中だけ聞いて帰って寝た.

メモが後半になるにつれ適当になっているのもそのため.

[基調講演1] "Probabilistic Topic Models and User Behavior" : Columbia大学 David Blei教授

資料 : Probabilistic Topic Models and User Behavior(pdf)

資料を読めば大体わかるので、いくつか載っていない点や気になった点をメモ.

[招待講演1] "鋼鉄の錬金術師を目指すNS Solutionsの取組紹介" : 株式会社新日鉄住金ソリューションズ 本橋智光様

  • 発表者について
    • データ分析にまつわる研究開発の部署ができたのはここ数年?
  • NSSOL がデータ分析を?
    • 親会社は新日鉄
      • 鉄の温度は直接測ることができない
      • 鉄の製造とデータ分析は深い関係がある
  • KDD Cup 2015 の話
    • タスク : 中国の MOOC における離脱予測
    • 2位
      • 最終日までは祝賀ムードだったのに最後で抜かれた
    • アプローチ : 各自が大量の特徴量を作る
  • データ分析にまつわる業務
    • 案件のうち、70% はテーマを考えるところから
  • 各事例の紹介
    • 製造業におけるデータ分析
      • 製造業、どんどんデータ分析にもとづく施策が導入されている
      • 詳細は非公開
      • 製造業、実験計画法などの文化があるのでやりやすそう
    • LDA で業務報告書を検索
      • トラブル事例など
      • 全文検索だとヒットしない
    • 新製品の需要予測
      • 発売から一週間の売上情報を使って一ヶ月後の出荷量を予測
      • 結構な精度で予測を実現
    • 販売戦略
      • どんなに高精度で予測ができても売上に結びつかない
      • どこがボトルネックか、どうやって売上を伸ばすか、まで必要
      • 複数のモデルを切り替えながら予測して可解釈性を高めたり
    • タクシーの需要予測
      • 空車率が高い、ベテランと非ベテランで空車率に差がある
      • 需要予測で効率化
    • マーケティング施策
    • Jリーグ・マッチスケジューラー (日程くん)
      • 様々な制約条件 (ホーム/アウェイが続くと困る、遠征ばかりだと困る、など) がある中で試合の日程を組む
      • 天皇杯が終わらないと試合予定が組めないのでいつも待っている
  • その他
    • 自社サービス : Data Veraci
    • Data Robot ともやっている.作ってくるモデルがすごい.
  • 質疑
    • Q. モデルの解釈性とブラックボックス化について
      • A. 現場が強いところは解釈性を求める
    • Q. (自分) 実案件において精度をどこまで追求するのか、やり始めるとキリがないタスクであるのでどのあたりで見切りをつけるのか
      • A. 現状の予測を置き換えるのならばそれと同等まで、モデルが存在しないタスクであれば現場の肌感と合う程度まで
    • Q. 分析と事業への反映のスピード感はどうか

[招待講演2] 事業成長とデータとの付き合い方 : 株式会社エウレカ 中村裕一

  • pairs(ペアーズ) - Facebookを利用した恋愛・婚活マッチングサービス の話
  • 様々なデータがある
    • デモグラ、位置、チャネル、時系列、行動、購買
  • 豊富なデータを事業開始当時から活用できたか?
    • No
    • 様々な課題があった
      • 量不足、質不足、基準が不明確、最終的な利用方法が不明
    • やりたいことは色々あったが最初からは無理
  • まずは分析するためのデータを追う
    • 「現状のデータが高度な分析を行うに値するデータであるのか」をチェックするところから始めた
    • 管理画面を作って基礎集計を表示する
      • 例 : ユニークユーザ、アクティブユーザなど
      • 「今何を見るべきか」に集中した
    • ある程度規模が大きくなってきたらようやく分析が可能になる
  • 規模拡大に伴うシステムの変化
    • 当初の SQL + PHP から Redshift へ
    • Go によるフルスクラッチにともない、 BigQuery で一元管理
      • 共通化によって各種 KPI の定義がバラバラだったものを統一
  • 結論 : データは武器にも弱点にもなる
  • 質疑
    • Q. (自分) 施策の精度が上がることによりマッチングが効率化されてしまったらサイトでお金を落とさなくなるのではないか
      • その場での思いつきだったけど、例えば人材紹介サービスであればマッチングによる成功報酬があるが、出合い系だとそういうわけでもないので難しいのでは、というのは真面目に考えた
      • A. 究極的にはそうだが、現状はそこまでなるとは考えていない.マッチングの精度が上がることを目指している.
トラックバック - http://d.hatena.ne.jp/repose/20160212

2016-01-31

[] Collaborative Denoising Auto-Encoders for Top-N Recommender Systems (WSDM 2016) 読んだ 21:49  Collaborative Denoising Auto-Encoders for Top-N Recommender Systems (WSDM 2016) 読んだを含むブックマーク

(pdf)

手法

ユーザの評価したアイテム集合にノイズを載せ,それを復元する AutoEncoder (AE) を学習する.

その際,入力層にユーザ固有のノードを1つ追加し,その上で全隠れ層に対してユーザノードから(ユーザ固有の)重みを持った枝を張る.

これがただのAEによる推薦と違う,とのこと.

あとは損失関数をpointwiseにするかpairwiseにするかとか提案されている.

読解力が極端に悪いせいなのか,えらくシンプルな論文だった.

実験の章,3つのデータセットで試したはずの実験が2つの結果の表しか掲載されていないことだけがよくわからない.

トラックバック - http://d.hatena.ne.jp/repose/20160131