WORD BOOK
頻出ワードを暗記する単語帳


回答は●●●をクリックしてください

強化学習において、エージェントが環境と相互作用しながら最適な行動を学習する手法で、特にポリシー勾配法に有効です。REINFORCEは、エージェントが選択した行動に基づいて報酬を更新します。この手法を●●●●●●●と言います。