Hatena::ブログ(Diary)

糞ネット弁慶

日本声優統計学会/声優統計についてはこちら

2018-06-25

[] 声優統計コーパスのバランス文を男性が読み上げた音声ファイルが公開されました 19:07  声優統計コーパスのバランス文を男性が読み上げた音声ファイルが公開されましたを含むブックマーク

声優統計コーパスのパラレルコーパスとして,東京大学猿渡研究室によるJSUT (Japanese speech corpus of Saruwatari-lab., University of Tokyo)がありました.

このたび,nico-opendata 音声読み上げデータセットDwango Media Village によって公開されました.

nico-opendata 音声読み上げデータセットは Dwango Media Village の男性研究員が声優統計コーパスのバランス文 100 文を読み上げた音声ファイルです.上記ページでは統計的声質変換に関するサーベイも記述されています.声質変換についてわかっていなかったので非常に参考になりました.

また,同研究員が音学シンポジウム2018で発表を行った「畳込みニューラルネットワークを用いた音響特徴量変換とスペクトログラム高精細化による声質変換」について,発表内容,ソースコード,および,統計的声質変換を実際に行ったデモ音声が公開されています.

せっかくなのでこれを機に様々な人々が思い思いの音声コーパスを公開する時代になると面白いと思います.

トラックバック - http://d.hatena.ne.jp/repose/20180625

2018-06-24

[] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time (WebConf 2018) 読んだ 12:24  Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time (WebConf 2018) 読んだを含むブックマーク

[1711.07601] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time

Pinterest における推薦の論文Jure Leskovec が last author に入っているのでとりあえず読む. WWW が WebConf に名前が変わったのが悲しい.

概要

超大規模なサービスである Pinterest においてリアルタイムな推薦を実現する Pixie について説明する.

手法

Pinterest ではユーザは Board の下にそれぞれの pin を保存する.実現したいのは直近のユーザの行動によって得られた pin と重みの集合であるクエリ Q に対して適した pin を推薦したい.

基本的な方針は pin と Board を二部グラフとみなしてそのグラフ上をランダムウォークする.

ランダムウォークの基礎

クエリ が 1 つだけで重みがない場合のランダムウォークについて考えてみると,二部グラフ上の かららスタートして 回二部グラフ上をランダムに渡り歩き,それぞれの pin を訪問回数 順に並び替えて返せばいい.

この手法を次に説明するように発展させていく.

ランダムウォークバイアスをかける

まずはただランダムに遷移するのではなく,ユーザごとにバイアスをかけることを考える.隣接ノードを uniform に選ぶのではなく,ユーザごとの特徴量に従って遷移するノードを PersonalizedNeighbor(E, U) という関数で選ぶ.この関数についてはこれ以上の説明がないので詳細は不明.

複数のクエリと重みを扱う

クエリとして複数の pin とそれぞれの重みを扱う (重みはその pin に対してユーザがどういう行動をとったか,およびその行動が発生してからの経過時間にもとづいて決まるらしいが詳細な説明無し).

基本的には各クエリごとにランダムウォークを行い,クエリごとの pin の訪問回数 を保存する.

ここで重要なのは,各クエリにおいてランダムウォークの回数 を変えて とすることである.クエリの次数が大きければ大きいほどランダムウォークの回数は多くする.

と思ったらより効率的にするために early stopping を導入する.これは最低 個の pin に最低 回訪問したらランダムウォークを打ち切るというもの.これによって精度はそのままに計算時間が倍の速さになった.

(early stopping するなら重みの形はどうでもいいのだろう)

Multi-hit Booster

ただ足し合わせるのではなく, として複数のクエリから訪問されている pin を重く評価する.

グラフの枝刈り

グラフはそのままだと非常に大きいので枝刈りする.方針としては二つ.

雑多な Board を削除する

pin の説明文に対して LDA を適用して topic distribution を計算して topic vector とする.その後,それぞれの Board に直近で追加された複数の pin の topic vector の entropy を Board の entropy とし,これが大きい Board をグラフから削除する.

人気の pin を削除する

人気の pin を削除する.がただ削除するのではない.その pin の topic vector と Board の vector とのコサイン類似度を取って類似しているもののみ残す.

この枝刈りによってグラフの大きさを 1/6 にし,推薦の類似度を 58% 改善した.

トラックバック - http://d.hatena.ne.jp/repose/20180624

2018-06-14

[] JSAI 2018 / 2018年人工知能学会全国大会(第32回) 行った 21:52  JSAI 2018 / 2018年度 人工知能学会全国大会(第32回) 行ったを含むブックマーク

はじめて桜島を見た.「農業AIセッションモチベーションが面白い.

「めっけもん」で食べた回転寿司がとても美味しかった.あいにく桜島は見えないままだった.

トラックバック - http://d.hatena.ne.jp/repose/20180614

2018-05-30

[] ML Ops Study #2 参加した 07:50  ML Ops Study #2 参加したを含むブックマーク

no title

申し込んだら当たったので参加した.皆さんみたいにちゃんとした機械学習や深層学習がしてみたかった.

機械学習プロジェクトを頑健にする施策: ワークフロー、仮想化、品質向上、知識移譲 etc

機械学習プロジェクトを頑健にする施策 ML Ops Study #2 // Speaker Deck

質疑で「リサーチャーは Jupyter notebook が精一杯だったりする.リサーチャーがソフトウェアエンジニアの,ソフトウェアエンジニアがリサーチャーの素養がある程度ないと難しいのではないか」みたいな質問があり, Cookpad 社は両方素養がある人ばかりなのでコードレビューも問題無いという返答があった.Jupyter notebook ですらまともに使うことができない低レベルの人間なのでとても参考になった.

Github や Qiita に公開されている機械学習系のコードは品質がひどくて動かない事が多い」という話で自分を除く皆さんが笑顔になっていた.

ドローン点検・測量を機械学習を使って圧倒的に簡単にしました

  • SONYZMP が組んだエアロセンスではドローンによる測量をやっている
  • ドローンGPS は誤差が酷いのでマーカーを併せて使うことが一般的だが
    • マーカーの正確な位置を手で測量しなきゃならない
    • 画像中のマーカーを手で特定しなきゃならない
  • そこでマーカーを独自開発する
    • 高精度 GPS と高さ計測をマーカー自身で実現
    • その上でドローンから空撮した画像中からマーカーを自動検出 (opencv による候補抽出 + tf 実装の VGG でマーカーかどうか分類) する
      • どうして一つのモデルで全部やらないかの質疑が聞き取れなかった
  • 結果手作業を 60% 削減できた

Kelner: 爆速で構築できる機械学習モデルサーバー

What is Kelner? | Kelner

学習済み機械学習モデルを用いた予測を簡単に REST API として公開するためのフレームワーク

機械学習といっても Keras と Tensorflow にのみ対応しており scikit-learn には未対応.よくわかっていないけれど kelner_model.KelnerModel を継承した SKLearnModel とか実装すればいいのだろうか.

このあたりで追加した頭痛薬が効かなくて帰った.

トラックバック - http://d.hatena.ne.jp/repose/20180530

2018-04-15

[] 声優統計コーパスの利用事例暫定まとめ 22:26  声優統計コーパスの利用事例暫定まとめを含むブックマーク

日本声優統計学会 にて声優統計コーパスを公開してほぼ一年.個人団体を問わず問い合わせのメールを頂いている.

しかしよく考えたら Google Analytics の設定をまともに書いていなかったせいでどれぐらいダウンロードされたのか全く計測できていない.せめて,検索して見つけた範囲で利用されているブログ記事を集めた.

声優統計コーパスを使ってみる - 驚異のアニヲタ社会復帰への道

声優統計コーパスをアライメントしてみる | Hiho’s Blog

日本声優統計学会の公開データを使って声優さんの声認識 – 京都の技術者ロードローラーさんのブログ

声優統計コーパスを使ったWaveNet音声合成/歌声合成に挑戦します - Monthly Hacker's Blog

声優統計のデータを使った、簡単なGMM声質変換のデモノートブック - Jupyter Notebook

@__dhgrs__さんからの指摘にもあるように,公式でアラインメントを提供すべきなのだろうと思っているけれどなかなか時間がない.今回言及した記事でも行われていたり,この方も行っていたりとあるにはあるのだけど,なかなか追いきれていないのと音声周りの知見がやはりまだ無いままなのでどうやるのが良さそうなのかよくわかっていない.

Shinnosuke Takamichi (高道 慎之介) - JSUT

また,これはブログ記事ではないけれど,東大猿渡研究室の高道助教によって作成されたコーパスに voiceactress100 として声優統計コーパスと互換のある音声が含まれている.

このコーパス[1711.00354] JSUT corpus: free large-scale Japanese speech corpus for end-to-end speech synthesis という形で論文にもなっている. Reference に [11] y_benjo and MagnesiumRibbon とあるのがいい.

その他,このように利用しているなどあったら教えて欲しい.とても嬉しい.

トラックバック - http://d.hatena.ne.jp/repose/20180415

2018-04-05

[] Dynamic Word Embeddings for Evolving Semantic Discovery (WSDM 2018) 読んだ 21:27  Dynamic Word Embeddings for Evolving Semantic Discovery (WSDM 2018) 読んだを含むブックマーク

概要

[1703.00607] Dynamic Word Embeddings for Evolving Semantic Discovery

word embedding の時系列変化が見たい(これどこかの論文でも見た気がする).

例えば, apple という単語は昔は果物が連想されるだけだったが,今ではテクノロジー企業も連想されるだろう.

例えば, trump という人名だって「不動産」 -> 「テレビ」 -> 「共和党」と連想するものが時間と共に変化するだろう.

そういうのが見たい.

問題は,従来の embedding の方法は学習時に回転を考慮しないため,異なる時点での embedding を対応付けることができない.そこで,従来手法では,

  • 各時点での embedding を学習する
  • 時点ごとの embedding を対応付ける alignment を解く

という二段階のアプローチを行っていた.

この論文手法は,全時点での embedding を解きながら embedding の時間変化に伴う滑らかさを正則化項として追加することで alignment を分割して説かなくて済む.

手法

ある時点での embedding については skip-gram や CBoW ではなく, PPMI (positive pointwise mutual information) 行列を行列分解することで獲得する.

結論から先に書くと,時点 における PPMI matrix を とし,分解後行列を とすると,最小化すべき目的関数

となる.一項目は embedding そのものの誤差の最小化,二項目は embedding の正則化,三項目が時点間での滑らかさのコスト関数で時点間の embedding がどれだけ近いかをコントロールする.

これにより,全ての embedding が全時点を考慮した状態で推定が可能となる,と著者らは主張している.

非常にシンプルな話.

勾配まで論文中に示してあるので実装も簡単にできそう.

結果

embedding を t-sne で可視化しつつある単語の変化の跡 (trajectory) を見る.27年分のデータで実験

  • apple が「果物」から「技術」に移動している.94年にスパイクが発生しているのは IBM との騒動があったため.
  • amazon は「森林」から「e-コマース」に移動し,「タブレット」など経て最終的には Netflix などのコンテンツ配信領域に落ち着いている.
  • obama は「学生」「市民」という領域から「議員」に移動し,最後には「大統領」に
  • trump は「オーナー」「不動産」から「大統領」に
トラックバック - http://d.hatena.ne.jp/repose/20180405