最終更新:2025-05-13 (火) 18:21:15 (337d)  

RLHF
Top / RLHF

Reinforcement Learning from Human Feedback

人間のフィードバックによる強化学習

手法

PPO

  • Proximal Policy Optimization

メモ

  • 報酬モデル?

関連

参考