2023年3月現在のsota optimizer MADGRAD, Adahessian, Ali-G, Lion MADGRAD momentumとdual averagingを用いた、Adagrad系列の最適化手法 【プラスポイント】 ・mirror descentよりも理論的前提条件が簡素なdual averagingを使用。 ・dual averagingによって、各ステップに依存し、かつ学習の進行と共に弱まっていく正則化が導入されることを証明。 ・Adamが良い成果を収められる問題と収められない問題、どちらにおいても、AdamやSGDと同等以上の精度を達成。 ・Adamと違い、spa…