Gemma 4 の動作の実験をきっかけにMoEとPLEの違いを整理してみたノートです。自己理解を深めるために「何が違うのか」をつかむためのメモとして読んでもらえるといいかもしれません。私の理解も間違っているかもしれないですし🙄 最近、更新のあったGemma 4の資料を読んでいるなかで、理解が引っかかってしまったポイントの一つが MoE(Mixture of Experts) と PLE(Per-Layer Embeddings) という2つの単語でした。どちらも「総パラメータは大きいけど、実際に使う量は小さい」を実現する技術と説明されていて、ぱっと読みだと違いがほとんど分からないんですよね。 …