糞糞糞ネット弁慶

読んだ論文についてメモを書きます.趣味の話は http://repose.hatenablog.com

NIMA: Neural Image Assessment (Arxiv) または『Googleが作った画像評価モデル』の元論文を読んだ

[1709.05424] NIMA: Neural Image Assessment

Google、任意の画像が技術的に審美的に美しいかを評価し1-10(10が最高得点)で採点するCNNベースの画像評価モデル「NIMA」を提案した論文を発表 | Seamless
Google AI Blog: Introducing NIMA: Neural Image Assessment

「写真を評価する人工知能」と話題になっていて,そんな研究いくらでもあるだろうと思ったので元論文を読んだ.
例えば似た話にニコニコ静画(イラスト)に投稿された175万枚の画像を用いて、閲覧数とお気に入り数を予測する回帰の問題としてchainerを用いて学習させた話とかある.

概要

画像を評価するニューラルネットを提案する.
前述の記事では「技術面と審美面」となっているけれど記事だけじゃ何が書いてあるのかまったく意味不明であり,画像処理にも詳しくないので intro を少し真面目に読む.
まず技術面 (technical quality) というのは技術というより品質の評価.画像がどの程度劣化しているかというのを評価するタスク.劣化前の画像がある場合と無い場合があって,劣化前の画像があるのなら PSNR や SSIM といった指標を用いることで劣化度合いが計算できる.が,劣化前画像が無いことが多いので「元の画像からどれだけ劣化したか」を予測する必要がある.
次に審美面 (aesthetic quality) はそのまま人間による評価.美しいか,独創的か,など.

両タスクにおいて用いる学習用データには,人手での評価が行われている.評価は 1 から 10 の 10 段階のように,段階で評価が行われているものとする.
既存手法では,評価の平均値に対する回帰や,高評価/低評価の分類を行なうものが多いため,評価の分布の情報を活かすことができていない.そのため,モデルによる評価が人間の評価と相関がそこまで高くなかった (言及している既存研究 ([1606.01621] Photo Aesthetics Ranking Network with Attributes and Content Adaptation) を見てもそこまで低くは見えないけれど).
NIMA では人間の評価により近付けるため,評価の分布そのものをヒストグラムとして扱って予測する.これにより, technical および aesthetic 両方において人間の評価と非常に相関が高い出力を得ることができた.

データセット

画像の美しさの評価はAVA: A large-scale database for aesthetic visual analysis - IEEE Conference Publicationを用いる.このデータセットでは画像ごとに 10 段階の評価が行われている.
画像の品質に関する評価はNikolay Ponomarenko homepage - TID2013を用いる.こちらも 10 段階の評価が行われている.評価データの作り方はちょっと工夫がされているので原文参照.

手法

画像から特徴量を抽出するネットワークは VGG16 や Inception-v2 といった既存のものを用いる.その上で,最終層を取り除き, full connected -> softmax で N 段階評価の N 個の多項分布を出力する.イメージとしては,各評価値 (bucket) に落ちる確率,と論文では表現されている.
しかしこの確率をただ学習する (例えば損失関数を cross entropy にする) のでは,評価値ごとの順序性が考慮されない.
「ならば回帰で解けばいいじゃないか」と思われるかもしれないが,しかし,分類ベースで解く方がいいと過去の研究でも言われている.
NIMA では損失関数を Earth Mover's Distance (EMD) にすることで順序付きの分類を適切に解く.

実験結果

前述のデータセットに対して予測実験を行っている.
この論文で一番よくわかっていないのは実験結果の見方で,人間の評価と相関が高いほど良いという話はわかっているのだけれど,そもそも比較しているほとんどの既存手法では相関が計算されていない.
なのでこの手法の良し悪しをどう評価しているのかが正直わからない.
Google Research Blog で取り上げられるほど優れた何かがあるのか,画像処理に詳しくないのでわからないままだった.詳しい人に聞きたい.