最終更新:2024-04-05 (金) 13:26:59 (25d)  

RLHF
Top / RLHF

Reinforcement Learning from Human Feedback

関連

参考