2015-08-20

Learning Deep Architectures for AI の翻訳です。

目次はこちら

１４．未解決の諸問題

ディープ・アーキテクチャに関する研究はまだ若く、多くの疑問が答を持たないままである。以下は興味深くなる可能性がある。

回路における計算深さの役割に関する結果を論理ゲートと線形しきい値ユニットを越えて一般化出来るか？

AIを達成するのに必要な計算にたいてい満足であるような深さは存在するのか？

固定長入力を持つ回路の深さに関する理論的結果を、文脈と再帰的計算の可能性を持つ、時間で動作する動的な回路に、どのように一般化することが出来るか？

ランダムな初期化から出発した、ディープ・ニューラル・ネットワークの勾配ベース訓練は、なぜしばしば失敗するのか？

対照分岐で訓練された制限ボルツマンマシンは、その入力の情報をうまく保持するか？　もしそうでないならば、どのようにそれは固定(? fix)できるのか？

制限ボルツマンマシンを訓練する際、局所最小の存在は重要な問題なのか？

制限ボルツマンマシンを、良い表現を抽出するのに堪能だが、より易しい最適化問題、たぶん凸状の問題であっても、それを引き起こすアルゴリズムで置き換えることは可能か？

対照分岐でのギブスステップの数は、訓練の間に調整されるべきか？

再建誤差以外に、制限ボルツマンマシンの訓練の進捗を監視する、より適切な方法はないか？　同じことであるが、制限ボルツマンマシンの分配関数の扱い易い近似はあるか？

制限ボルツマンマシンとオートアソシエータは、学習する表現に、ある形式のスパーシティ・ペナルティを課すことで改善出来るのか？　そしてそれを行う良いやり方は何か？

隠れたユニットの数を増やすことなく、制限ボルツマンマシンのエネルギー関数のノンパラメトリック形式を用いて、そのキャパシティを増やすことが出来るか？

オートアソシエータの積上げの中の学習されたモデルには、確率的な解釈が存在するか？

ディープ・ビリーフ・ネットワークを訓練するには、貪欲層毎アルゴリズムはどのくらい効率的であるか（訓練データ尤度を最大化することに関して）？　それは貪欲過ぎるのではないか？

ディープ・ビリーフ・ネットワークのlog尤度勾配の、低変動、低バイアスの評価子を得ることが出来るか？　つまり、（教師なしの目的に関して）全ての層を一緒に訓練することが出来るだろうか？

連続法に基づく最適化戦略は、ディープ・ビリーフ・ネットワークの訓練に顕著な改善をもたらすことが出来るか？

ディープ・ビリーフ・ネットワーク・モデル以外に、効率的に訓練出来るディープ・アーキテクチャが存在するか？

人が学ぶのに数年や数十年かかるような高レベルの抽象概念を学習するのには、カリキュラムが必要であるか？

ディープ・アーキテクチャを訓練するために発見された原則は、再帰的ネットワークや動的ビリーフ・ネットワーク（それらは文脈と長期依存性を表現することを学ぶ）を訓練するために、適用あるいは一般化が可能か？

教師なしの場合でも、訓練中のディープ・ビリーフ・ネットワークの性能を監視するのに用いることが出来るような、ディープ・ビリーフ・ネットワーク内のlog尤度のための、扱い易い代理を計算することが出来るか？

ディープ・アーキテクチャは、その変数のサイズと構造のために（例、ツリー、グラフ）、その性質からしてベクトルでは容易に表現出来ないようにみえる情報を表現するように、どのように一般化出来るか？

ディープ・ビリーフ・ネットワークは原則として半教師あり設定によく適しているが、それらのアルゴリズムはこの設定にどのように適応すべきなのか？　そしてそれらはどのように既存半教師ありアルゴリズムと比較してやっていくのか？（? how would they fare compared to existing semi-supervised algorithms?）

ラベルづけされた例が使用可能な場合、モデルの入力表現を学習するために、教師ありと教師なしの判断基準をどのように組合せるべきか？

対照分岐やディープ・ビリーフ・ネットの学習に必要な計算の類似物を、我々は脳の中に見つけることが出来るか？

異なるタイプのディープ・アーキテクチャを得、訓練するために、デシジョン・ツリー集合を積み上げることは出来るのか？

工場統計力学（建設中！）

１４．未解決の諸問題――Learning Deep Architectures for AI