前回はParallel Scanのforwardについてある程度確かめた。今回はParallel Scanの逆伝播と状態空間モデルの離散化について確認する。 Parallel Scanの逆伝播 【2024/05/04】理解に誤りがあった部分の記述を訂正。 mamba.pyにおいてParallel Scanの逆伝播はpscan_revという新たな関数を用いて実装されている。これは「flip the input, call pscan, then flip the output」を行う操作とのことである。これで上手く計算できることを系列長4の場合を手計算して確かめる。 まず順伝播を振り返ると、結局…