GMM.com

Francis Dieboldが1年ほど前のブログエントリで、欧州の別々の三人の計量経済学者がそれぞれ別々の機会にGMM(generalized method of moments=一般化積率(モーメント)法)を「奇妙な米国の推定量(strange American estimator)」と呼んだことを報告している。そして、GMMに対する統計学者や自分の見解を以下のようにまとめている(その際、林文夫氏が引き合いに出されている)。

On the one hand, it seems clear that frequentist statisticians dismissed method-of-moments and minimum chi-squared (their term for GMM) ages ago as inefficient relative to MLE, and that Bayesian statisticians never dismissed them because they never paid them any attention in the first place. Instead, both communities have always thoroughly and intentionally focused on the likelihood -- frequentists on the location of its max and its curvature in an epsilon-neighborhood of the max, and Bayesians on its entire shape.
Surely this historical background is what drives the European view. And against that background, I too am always a bit perplexed by the GMM phenomenon, as distilled for example in Hayashi's classic econometrics text, which reads in significant part as something of a prayer book for the GMM congregation. (Never mind that my friend and former-colleague Hayashi is Japanese; his econometrics training and style are thoroughly American.)
That is, I must admit that, in part, I too am rather skeptical. Somehow my community just never got the religion. My belief is probably restrained significantly by the fact that my interest centers on dynamic predictive econometric modeling, which is often best done in reduced-form (see No Hesitations, June 12, 2013). Hence one of the grand sources of GMM moment conditions -- orthogonality between instruments and disturbances in estimating causal effects -- is, for me, typically neither here nor there.
(拙訳)
一方で、頻度主義の統計学者が、積率法および最小χ二乗法(彼らのGMMの呼び方)は効率性で最尤法に劣るとしてずっと以前に退けたことは明らかなことのように思われる。また、ベイズ主義の統計学者はそれらの手法を退けたことが無かったが、それはそもそも彼らが関心を持っていなかったため、というのも明らかなことのように思われる。両陣営は徹底して専ら尤度に関心を寄せてきた――頻度主義者はその最大値の位置とそこから微小距離離れた近傍の曲率に、ベイズ主義者はその全体の形状に。
こうした歴史的背景が欧州的見解を生み出したのは確かだ。そしてそうした背景において、私もまたGMM現象に少し戸惑いを覚えている。その現象は、例えば林の有名な計量経済学教科書に結実している。同書のかなりの部分は、GMM信徒のための祈祷書のように読める(私の友人でありかつての同僚である林が日本人であることは気にしなくて良い;彼の計量経済学の教育とスタイルは完全に米国流だ)。
つまり、部分的には私もまたどちらかというと懐疑的であることを認めねばなるまい。なぜか私の陣営は決してその宗教に帰依することは無かった。私の考えは、私の興味の中心が動学的予測計量経済モデルにあるという事実におそらくかなりの程度制約されている。そのモデルは誘導型が最も適している(2013/6/12エントリ参照)。従って、GMMの積率条件の重要な源泉――因果関係を推定する際の操作変数と擾乱項の直交性――は、私について言えば、基本的に無関係なものであった。


その一方でDieboldは、後続エントリで、GMMが最尤法より有用な場面として以下の2つを挙げている。

  • シミュレーションによるGMM(=simulated method of moments, SMM)の導入
  • モデルの定式化誤りの際の特性

前者についてDieboldは以下のように説明している。

GMM is widely-advertised as potentially useful when a likelihood is unavailable. In other cases the likelihood may be "available" but very difficult to derive or evaluate. But model moments may also be seemingly unavailable (i.e., analytically intractable). SMM recognizes that model moments are effectively never intractable, because they can be calculated arbitrarily accurately from an arbitrarily long model simulation. That's really exciting, because simulation ability is a fine litmus test of model understanding. If you can't figure out how to simulate pseudo-data from a given probabilistic model, then you don't really understand the model (or the model is ill-posed). Assembling everything: If you understand a model you can simulate it, and if you can simulate it you can estimate it consistently by SMM, choosing parameters to minimize divergence between data moments and (simulated) model moments. Eureka! No need to work out complex likelihoods, even if they are in principle "available," and in this age of Big Data, MLE efficiency lost may be a small price for SMM tractability gained.
(拙訳)
GMMは、尤度が使えない場合も使えると喧伝されている。あるいは尤度が「使える」場合でも、導出や推計が非常に困難かもしれない。しかしモデルの積率もやはり使えない(=解析的に求められない)ことがあるように思われる。SMMは、モデルの積率が事実上決して求められないということを踏まえており、恣意的な期間のモデルのシミュレーションから恣意的な正確性を以ってそれを計算している。これは非常に興味深いやり方である。というのは、シミュレーション能力はモデルをどれだけ理解しているかについての優れたリトマス試験紙となるからである。ある確率モデルで疑似データをどのようにシミュレーションすれば良いか分からない場合、その人はモデルを本当に理解してはいないのである(あるいはモデルの使い方が間違っている)。つまるところ、モデルが分かっているならばシミュレーションができるはずだし、シミュレーションができるならば、データの積率と(シミュレーションされた)モデルの積率との乖離を最小化するパラメータを選ぶことによって、SMMで一致性を持つ推定量が求められる。やったね! 複雑な尤度に取り組む必要は無い――たとえ原理的にそれが「使える」場合でもだ。このビッグデータの時代においては、最尤法がもたらす効率性を失うことは、SMMによって解が得られることに比べれば安い対価と言える。

後者についての説明は以下の通り。

All econometric models are approximations to a true but unknown data-generating process (DGP), and hence likely misspecified. GMM/SMM has special appeal from that perspective. Under correct specification any consistent estimator (e.g., MLE or GMM/SMM) unambiguously gets you to the right place asymptotically, and MLE has the extra benefit of efficiency, so it's preferable. But under misspecification, consistency distinguishes the estimators, quite apart from the secondary issue of efficiency. In particular, under misspecification the best asymptotic DGP approximation for one purpose may be very different from the best for another. GMM/SMM is appealing in such situations, because it forces you to think about which features of the data (moments, M) you'd like to match, and then by construction it's consistent for the M-optimal approximation.

In contrast to GMM/SMM, pseudo-MLE ties your hands. Gaussian pseudo-MLE, for example, may be consistent for the KLIC-optimal approximation, but KLIC optimality may not be of maximal relevance. From a predictive perspective, for example, the KLIC-optimal approximation minimizes 1-step-ahead mean-squared prediction error, but 1-step quadratic loss may not be the relevant loss function. The bottom line: under misspecification MLE may not be consistent for what you want, whereas by construction GMM is consistent for what you want (once you decide what you want).
(拙訳)
すべての計量経済モデルは、真であるが未知のデータ生成過程(data-generating process=DGP)の近似であり、従って定式化の誤りを生じ得る。GMM/SMMはその点において特別な長所がある。正しい定式化においては、(最尤推定法にせよGMM/SMMにせよ)一致性のある推定量はすべて漸近的に必ず正しい値となる。最尤推定法の場合は効率性というおまけも付いているので、望ましい手法となる。しかし定式化を間違えた場合は、効率性という二次的な問題はさておき、一致性は推定量によって差が生じる。具体的には、誤った定式化の下では、ある目的のためのデータ生成過程の最善の漸近的近似は、別の目的のための最善の近似とまったく違ったものとなる可能性がある。GMM/SMMはそうした状況下で魅力的なものとなる。というのは、データのどの特性(積率M)を合わせたいのかについて考えざるを得なくなるからである。そしてその作りからして、GMM/SMMはMの最適な近似において一致性を持つ。
GMM/SMMとは対照的に、疑似最尤法には制約がある。例えば正規分布の疑似最尤法は、Kullbuck-Leibler情報量を最適にする近似では一致性を持つかもしれないが、Kullbuck-Leibler情報量の最適性が最も良い近似とは限らない。予測を例に取ると、Kullbuck-Leibler情報量を最適にする近似は1段階先の平均二乗予測誤差を最小にするが、1段階先の損失の二次関数が重要な損失関数だとは限らない。要は、モデルの定式化を誤った場合、最尤法は自分の目的に照らして一致性を持つとは限らない半面、GMMは作りからして自分の目的(きちんと定めさえすれば)に照らして一致性を持つ、ということだ。