Q学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/06/04 03:44 UTC 版)
Q学習
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2020/10/23 16:27 UTC 版)
詳細は「Q学習」を参照 Q学習(Q-learning)は方策オフ型のTD学習。 Q ( s t , a t ) ← Q ( s t , a t ) + α [ r t + 1 + γ max p Q ( s t + 1 , p ) − Q ( s t , a t ) ] {\displaystyle Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha \left[r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a_{t})\right]}
※この「Q学習」の解説は、「強化学習」の解説の一部です。
「Q学習」を含む「強化学習」の記事については、「強化学習」の概要を参照ください。
Q学習と同じ種類の言葉
- Q学習のページへのリンク