WORD BOOK
頻出ワードを暗記する単語帳


回答は●●●をクリックしてください

強化学習において、特定の状態における期待報酬を表す関数です。価値関数は、エージェントが最適な行動を選択するための基準となります。この関数を●●●●●●●と言います。