Q学習とは何？わかりやすく解説 Weblio辞書

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習（英語版）半教師あり学習（英語版）教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF（英語版） PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN U-Net
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

Q学習（Qがくしゅう、英: Q-learning）は、機械学習分野における強化学習の一種である。

概要

Q学習は強化学習の方策オフ型時間差分法の一つである。概念自体は古くから存在するが、Q学習（Q-learning）という名前で今日の手法がまとめられたのは、1989年のクリストファー・ワトキンズ（Christopher J.C.H. Watkins）の博士論文に端を発する。^[1]

TD学習は $R_{t+1}+\gamma V(S_{t+1})$

Q学習

出典: フリー百科事典『ウィキペディア（Wikipedia）』 (2020/10/23 16:27 UTC 版)

「強化学習」の記事における「Q学習」の解説

詳細は「Q学習」を参照 Q学習（Q-learning）は方策オフ型のTD学習。 Q ( s t , a t ) ← Q ( s t , a t ) + α [ r t + 1 + γ max p Q ( s t + 1 , p ) − Q ( s t , a t ) ] {\displaystyle Q(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha \left[r_{t+1}+\gamma \max _{p}Q(s_{t+1},p)-Q(s_{t},a_{t})\right]}

※この「Q学習」の解説は、「強化学習」の解説の一部です。
「Q学習」を含む「強化学習」の記事については、「強化学習」の概要を参照ください。

ウィキペディア小見出し辞書の「Q学習」の項目はプログラムで機械的に意味や本文を生成しているため、不適切な項目が含まれていることもあります。ご了承くださいませ。お問い合わせ。

Q学習とは？わかりやすく解説

Q学習

概要

Q学習

「Q学習」の関連用語


	All text is available under the terms of the GNU Free Documentation License. この記事は、ウィキペディアのQ学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。 Weblio辞書に掲載されているウィキペディアの記事も、全てGNU Free Documentation Licenseの元に提供されております。
	Text is available under GNU Free Documentation License (GFDL). Weblio辞書に掲載されている「ウィキペディア小見出し辞書」の記事は、Wikipediaの強化学習 (改訂履歴)の記事を複製、再配布したものにあたり、GNU Free Documentation Licenseというライセンスの下で提供されています。

Q学習とは？ わかりやすく解説

Q学習

概要

Q学習

「Q学習」の関連用語

Q学習とは？わかりやすく解説