まとめ LLMのPost-trainingに関するコードがそのままでは動かなかったので、改良して動くようにします。 なぜこのような作業を始めたのですか? 私は機械学習理論の専門家です。LLMに対するMonte Carlo tree search (MCTS) の論文に興味があったので、関連論文の結果を再現しようとしました。 きっかけ 最初にこのtweetを見たのがきっかけです。 Beautiful Paper.A comprehensive survey of post-training methods including fine-tuning, reinforcement learning…