対象にした振る舞い 使用したデータセット 対象にするLLM モデルのどこに注目するのか 可視化方法 PyTorchで中間表現を取得する方法 実行コードの一部の紹介 いくつかの散布図を描画 なぜAとBで傾向が違うのか・・・ まとめ こんにちは、CCCMKホールディングスTECH LABの三浦です。 前回Contrastive Activation Addition(CAA)という、LLMの振る舞いを調整するテクニックに関する論文の内容をご紹介しました。 techblog.cccmkhd.co.jp とても面白い内容だったので、自分でも試してみたいと思っていました。 CAAはLLMの振る舞いを調整…