DPO

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

CCCMKホールディングス TECH LABの Tech Blog•6ヶ月前

DPO(Direct Preference Optimization)を使ってLLMの回答を調整する方法を試してみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。あけましておめでとうございます。2025年がはじまりました。今年もまた、色々なことを試していきたいなと思います！昨年末にNeurIPS 2024に参加してから、LLMの"Post Training"というアプローチに興味を持っています。Post Trainingは、日本語では"事前学習"と呼ばれている"Pre Training"の後に行われるLLMの学習工程です。今回はPost Trainingで行われる、LLMの出力をより好ましいものに調整する"Preference Learning"で使用されるDPO(Direct P…

#AI#LLM#DPO#Hugging Face#生成AI

ネットで話題

14ブックマーク DPO による Llama 2 のファインチューニング｜npaka

note.com

関連ブログ

ローカルLLM自由帳•1年前

【LLM論文を読む】知識直接選好最適化（KDPO）によるLLMの知識編集

「直接選好最適化（DPO）」はいわゆるアラインメントの目的で使われているLLMの学習手法です。同一の指示に対する有益な回答例と有害な回答例の両方を提示することで、モデルが開発者にとって好ましい挙動をとるよう効率的に調整します。他のアラインメント手法よりも手軽に行えるので、ローカルLLMコミュニティでも追加学習の最終工程として積極的に採用されているようです。以前「このDPOってLLMに対する知識の追加目的でも使えるのでは？」と思ったことがあり、実際に試したのですが、素人仕事では効果が得られずそれっきりになっていました。ただ、久しぶりに知識編集関連の情報を調べていたところ、DPOを応用した…

#LLM#知識編集#DPO

ローカルLLM自由帳•1年前

DPO（直接選好最適化）とは何か、メモ

最近、自作の指示応答データセットを使った微調整によってLLMにパーソナライズされた知識を追加することを試みているのですが、その際にモデルに植え付けられた過剰なアラインメントが知識追加の障壁になる場合があります。例えばモデルに対し「USER: 好きな色は何色ですか？\nAI: 私の好きな色は青です」と学習させたいのに、モデルが頑として「AI: 私はAIなので人間のような色の好みはありません」と回答し続けるような場合があります。しつこく学習を続ければデータ通りに回答するようにはなりますが、そこまでSFTをやりすぎるとオーバーフィットでモデルの質が劣化します。このような場合、DPO（直接選好最…

#LLM#ファインチューン#DPO