最終更新:2025-05-13 (火) 18:21:15 (337d)
RLHF
Top / RLHF
Reinforcement Learning from Human Feedback
人間のフィードバックによる強化学習
手法
PPO
- Proximal Policy Optimization
メモ
- 報酬モデル?
おなかすいた族!