WORD BOOK
頻出ワードを暗記する単語帳


回答は●●●をクリックしてください

強化学習において、ヒューマンフィードバックを利用してエージェントの学習を改善する手法です。RLHFは、エージェントが人間の指示に基づいて行動を調整し、より効果的な学習を行います。この手法を●●●●●●●と言います。