WORD BOOK
頻出ワードを暗記する単語帳
回答は●●●をクリックしてください
強化学習において、状態-行動-報酬-次状態-次行動のペアを使用してQ値を更新する手法で、特にオンポリシー学習に有効です。SARSAは、エージェントが実際に選択した行動に基づいて学習を行います。この手法を●●●●●●●と言います。
G検定 問題集
学研グループが運営する「G検定」解説付き無料問題集
回答は●●●をクリックしてください
強化学習において、状態-行動-報酬-次状態-次行動のペアを使用してQ値を更新する手法で、特にオンポリシー学習に有効です。SARSAは、エージェントが実際に選択した行動に基づいて学習を行います。この手法を●●●●●●●と言います。