WORD BOOK
頻出ワードを暗記する単語帳


回答は●●●をクリックしてください

強化学習において、エージェントが環境と相互作用しながら最適な行動を選択するための数学的モデルです。マルコフ決定過程は、状態、行動、報酬、遷移確率の4つの要素で構成されます。このモデルを●●●●●●●と言います。