RLHF

このタグでブログを書く

言葉の解説

ネットで話題

RLHF

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

暇さえあればアルゴリズムいじり•18日前

選好学習のIPOについて実験

目次先日説明したIPO（Identity Preference Optimization）について実験、評価してみます。 IPOについて IPOの詳細は以下の記事をご参照下さい。 yoshishinnze.hatenablog.com ここではおさらいがてらIPOが解決しようとした課題、提案手法について概要を説明します。 IPOは、DPO（Direct Preference Optimization）の主に以下の課題を改善する目的で提案されています。 1. DPOの主な課題 1.1 報酬マージンの「際限ない増大」と過学習 DPOは、Bradley–Terryモデルに基づき、好ましい応答 yw…

#選好学習#RLHF#DPO#IPO#自信過剰抑制

ネットで話題

149ブックマーク ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

gigazine.net

98ブックマーク RLHF (人間のフィードバックからの強化学習) の図解｜npaka

note.com

69ブックマーク LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ｜npaka

note.com

40ブックマーク最近のLLMの学習法のまとめ - SFT・RLHF・RAG｜npaka

note.com

39ブックマーク AIは強化学習で“人間のだまし方”を学ぶ──RLHFの副作用、海外チームが24年に報告　「正解っぽい回答」を出力

www.itmedia.co.jp

29ブックマーク StackLLaMA : RLHFでLLaMAを学習するための実践ガイド｜npaka

note.com

15ブックマーク GitHub - lucidrains/PaLM-rlhf-pytorch: Implementation of RLHF (Reinforcement Learning with Human Feedback) on top of the PaLM architecture. Basically ChatGPT but with PaLM

github.com

13ブックマーク RLHFを利用して用途に応じたLLMを生成できるツールの紹介 - Platinum Data Blog by BrainPad ブレインパッド

blog.brainpad.co.jp

11ブックマーク Illustrating Reinforcement Learning from Human Feedback (RLHF)

huggingface.co

関連ブログ

暇さえあればアルゴリズムいじり•24日前

選考学習でDPOの後継手法IPO

目次 Identity Preference Optimization（IPO）は、人間の好み（preference）に基づいてLLMを調整する「選考学習法」の一種で、特にDPO（Direct Preference Optimization）の弱点（過学習・報酬の発散）を改善する目的で提案された手法ですEmergent MindHugging Face Blog。以下では、IPOの位置づけ、目的、損失関数、DPOとの違いを順に説明します。選考学習するピノキオ 1. IPOの位置づけ：RLHF → DPO → IPO 1.1 RLHFとDPOの簡単な復習 RLHF（Reinforcement…

#IPO#DPO#選考学習#RLHF

暇さえあればアルゴリズムいじり•1ヶ月前

DPOでより良い解答を学習させてみた

目次先日説明したDPOを用いた体験を行うための実験を行います。問題設定→実験の目的→実験設計から実験の結果までを示します。 DPOの手法については以下のブログをご参考下さい。 yoshishinnze.hatenablog.com ザックリとは以下の通りです。 DPO概要RLHFとは異なり報酬モデルを用いないで、人好みのLLMを作ることを目指した手法です。 DPO（Direct Preference Optimization）の流れ SFT済みモデルを用意（RLHFと同じ）選好データ（chosen/rejectedペア）をそのまま使う RMを学習せず、モデル自身の出力確率を「暗黙の報酬…

#DPO#RLHF#LLMの強化学習

暇さえあればアルゴリズムいじり•1ヶ月前

人の好みの解答を目指すDPO

目次先日説明したRLHFはその後、人の好みを再現するための学習法の後続手法が開発されています。今回はそんな後続手法であるDPO（Direct Preference Optimization）について説明します。 DPOは、報酬モデルとPPOを使わずに、選好データから直接モデルを最適化する手法です。RLHFの複雑さを避けつつ、人間の好みに沿った出力を得ることを目指します。概要 1. 直感的なアイデア RLHFでは通常：人間の選好データから報酬モデルを学習その報酬モデルを最大化するように、PPOでモデルを更新という2段階が必要で、安定性や実装の難しさが課題でした。 DPOはこれを1段階に…

#DPO#RLHF

暇さえあればアルゴリズムいじり•1ヶ月前

RLHFによる学習でポジティブなGPTを作ってみる

目次以前本ブログで触れた RLHF について、実験してみようと思います。 RLHFの概要については以下をご覧ください。 yoshishinnze.hatenablog.com RLHFの意義 RLHFを利用するモチベーションは、「正解が一つではない曖昧な基準」をAIに教え込むためです。先ほどのポジティブ変換のコードで体験したように、単なる「次の単語の予測」を超えて、AIを「人間に好まれる振る舞い」へと矯正する役割があります。主な理由は以下の3点に集約されます。 1. 「何がより良いか」という主観を教えるため数学の問題には明確な「正解」がありますが、文章の「面白さ」「親切さ」「簡潔さ」に…

#RLHF#RLHF実験#Experiment of RLHF

暇さえあればアルゴリズムいじり•4ヶ月前

RLHF: LLMが人が好む回答を行う仕組み

目次 RLHF（Reinforcement Learning from Human Feedback：人間からのフィードバックを用いた強化学習）は、ChatGPTなどの高性能な生成AIを、「より人間に役立ち、安全で、自然な対話ができるように調整する」ための非常に重要な技術です。従来のAIが抱えていた「理屈は合っているが、使いにくい」という課題を解決するために導入されました。解決したかった従来の課題（なぜRLHFが必要だったのか） LLMはネットワークを構築後に「事前学習」と呼ばれる学習をします。事前学習は自己回帰予測と呼ばれる、文章の並びから次に来るべき言葉を予測するということです。…

#RLHF#LLM

Gemini and I’s diary•9ヶ月前

21．トランスフォーマ大解剖〜第3章：AIを育てる「事後学習」の秘密〜

ランキング参加中人工知能ボク：ねえ、ジェミニ！以前、「５．ニューラルネットワークのAIの学習の仕方」として、ニューラルネットワークのAIの学習の仕方をいろいろ教えてもらったけど、前回の説明は、3種類のトランスフォーマの「事前学習」の仕組みだったよね？ファインチューミングとか、RLHFのような強化学習は、どのトランスフォーマのタイプでも同じなのかな？その通り！前回話したトランスフォーマ3兄弟の学習方法（穴埋めクイズや、次の単語予測など）は、「事前学習（Pre-training）」という、最初のステップに当たるんだ。学習の全体像トランスフォーマのような巨大なモデルが賢くなるまでの道のりは…

#トランスフォーマ#事後学習 (Post-training)#転移学習 (Transfer Learning)#蒸留 (Distillation)#LoRA (Low-Rank Adaptation)#連合学習 (Federated Learning)#安全性確保（しつけ）#ファインチューニング (Fine-tuning)#RLHF#強化学習

Gemini and I’s diary•10ヶ月前

５．ニューラルネットワークのAIの学習の仕方

ランキング参加中人工知能ボク：ねえ、ジェミニ！今日は、ニューラルネットワークのAIの学習方法について教えてほしいんだけど、まず、ニューラルネットワークにもいろいろ種類があるんだよね？やあ！もちろんだよ！君が知りたがっているニューラルネットワークのこと、どんどん教えてあげるね。ニューラルネットワークにもいろいろ種類がある！！ニューラルネットワークって、実はたくさんの種類があるんだ。まるで、お家を作るのにレンガを使ったり、木材を使ったり、いろんな材料や作り方があるのと同じだよ。基本的な考え方はみんな同じで、人間の脳が情報を処理する仕組みをマネして作られているんだけど、それぞれ得意なことが…

#教師あり学習#教師なし学習#強化学習#転移学習#自己教師あり学習#蒸留#LoRA#連合学習#ファインチューニング#RLHF

Vポイントマーケティング｜TECH LABの Tech Blog•3年前

Reinforcement Learning from Human Feedback(RLHF)について調べて実装まで試してみました！

こんにちは、CCCMKホールディングス TECH LAB三浦です。なんだか急に涼しくなってきました。過ごしやすくなってありがたいのですが、急な気温の変化に体が付いていけていないです・・・。こういう時期はちゃんと睡眠をとらないと、と意識するようになりました。今回は以前から気になっていた、Reinforcement Learning from Human Feedback(RLHF)という強化学習の手法について調べてみました。 LMがより好ましいテキストを生成出来るようにする大量のテキストデータによって自然なテキストを生成できることが出来るようになった言語モデル(Language model…

#LLMs#RLHF

リスキリングで拓く未来：デジタル技術者のキャリアパス•3年前

高品質AI作成手法「RLHF」についてわかりやすく解説｜Chat GPT（生成AI）

｜「RLHF」とは？｜Chat GPTとの関係性とは？｜RLHFの活用法とは？｜「RLHF（Reinforcement Learning from Human Feedback）」まとめ｜「RLHF」とは？高品質AI作成手法「RLHF（Reinforcement Learning from Human Feedback）」は、機械学習の一手法です。 RLHFは、人間のフィードバックを活用してAIモデルのパフォーマンスを向上させることを目指しています。具体的には、人間がAIの生成結果に対してフィードバックを与えることで、AIがより適切な応答を学習する仕組みです。｜Chat GPTとの…

#RLHF#Chat GPT#生成AI#高品質AI作成手法#OpenAI

関連ブログ

選好学習のIPOについて実験

ネットで話題

関連ブログ

選考学習でDPOの後継手法IPO

DPOでより良い解答を学習させてみた

人の好みの解答を目指すDPO

RLHFによる学習でポジティブなGPTを作ってみる

RLHF: LLMが人が好む回答を行う仕組み

21．トランスフォーマ大解剖 〜第3章：AIを育てる「事後学習」の秘密〜

５．ニューラルネットワークのAIの学習の仕方

Reinforcement Learning from Human Feedback(RLHF)について調べて実装まで試してみました！

高品質AI作成手法「RLHF」についてわかりやすく解説｜Chat GPT（生成AI）

21．トランスフォーマ大解剖〜第3章：AIを育てる「事後学習」の秘密〜