WORD BOOK
頻出ワードを暗記する単語帳


回答は●●●をクリックしてください

強化学習において、ディープQネットワーク(DQN)の改良版で、報酬の分布を学習する手法です。カテゴリカルDQNは、報酬の不確実性を考慮し、より安定した学習を実現します。この手法を●●●●●●●と言います。