こんにちは、CCCMKホールディングス TECH LABの三浦です。 あけましておめでとうございます。2025年がはじまりました。今年もまた、色々なことを試していきたいなと思います! 昨年末にNeurIPS 2024に参加してから、LLMの"Post Training"というアプローチに興味を持っています。Post Trainingは、日本語では"事前学習"と呼ばれている"Pre Training"の後に行われるLLMの学習工程です。今回はPost Trainingで行われる、LLMの出力をより好ましいものに調整する"Preference Learning"で使用されるDPO(Direct P…