方策勾配法 - Google DeepMind の David Silver 氏による強化学習コース 講義7

Posted on 2018-09-07(金) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる。以下は、講義7 のメモです。

  • はじめに

    • これまでは、価値関数から (例えば、ε貪欲法を使って) 方策を直接生成した
    • 価値関数をモデル化する代わりに、方策を直接モデル化する
      • \( \pi_\theta(s, a) = P[a | s, \theta] \)
    • 長所
      • 良い収束性
      • 高次元もしくは行動が連続空間の場合
      • 確率的な方策を学べる
    • 確率的な方策が良い場合
      • じゃんけん
        • もし、方策が決定的なら、相手にそのことを利用されてしまう
        • 最適な方策は、確率的にランダムな手を出すこと
      • Aliasing (偽信号 -> 2つ以上の状態がお互いに見分けられない場合) が起こる場合
        • 確率的に行動するのが最適
        • 素性のせいで、環境の表現が制限される場合も …

Continue reading

価値関数の近似 - Google DeepMind の David Silver 氏による強化学習コース 講義6

Posted on 2018-09-06(木) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる。以下は、講義6 のメモです。

  • はじめに

    • 大規模な強化学習
      • バックギャモン: \( 10^{20} \) 個の状態
      • 囲碁: \( 10^{170} \) 個の状態
      • ヘリコプター: 連続的な状態 → もはや参照テーブルを作ることができない
    • 価値 \( V(s) \) もしくは \( Q(s, a) \)
      • テーブルが巨大になってメモリに載らない、もしくは載ったとしてもスパースすぎて学習が遅い
    • 関数近似
      • \( v_\pi(s) \) を \( \widehat{v} (s, {\bf w})\)で近似
      • \( q_ …

Continue reading

モデルフリー制御 - Google DeepMind の David Silver 氏による強化学習コース 講義5

Posted on 2018-09-05(水) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる。以下は、講義5 のメモです。

  • はじめに

    • 非常に多くの問題が、MDP としてモデル化できる
    • On-policy (方策オン型)
      • 「行動しながら学ぶ」
      • 学習している方策と、サンプルを生成する方策が同じ
    • Off-policy (方策オフ型)
      • 「他の人の行動から学ぶ」
      • 学習している方策と、サンプルを生成する方策が違う
  • 方策オン型 MC 制御

    • 復習: 方策反復:1) 方策評価 \( v_\pi \) の推定 と、2) 方策改善 (貪欲的方策改善) を繰り返す
    • ここに、MC 法による方策評価を組み込むことはできるか?
      • 問題点:\( V …

Continue reading

モデルフリー予測 - Google DeepMind の David Silver 氏による強化学習コース 講義4

Posted on 2018-09-04(火) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる。以下は、講義4 のメモです。

モデルフリー予測 = 未知の MDP の価値関数を推定する

  • モンテカルロ (MC) 学習

    • 経験のエピソードから直接学習する
    • エピソードが終了する必要あり
    • 方策 \( \pi \) の下で、経験のエピソード \( S_1, A_1, R_2, ..., S_k \sim \pi \) から \( v_\pi \) を学習
    • 復習: 利得 \( G_t = R_{t+1} + \gamma R_{t+2} + ... + \gamma …

Continue reading

動的計画法を使った計画 - Google DeepMind の David Silver 氏による強化学習コース 講義3

Posted on 2018-09-03(月) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる。以下は、講義3 のメモです。

  • はじめに

    • 動的計画法
      • 「動的」: 逐次的、時間
      • 「計画」≒ 方策
    • 動的計画法がいつ使えるか
      • 最適なサブ構造に分解し、そこから最適解が求められる場合
        • 例: グラフの最短経路問題
      • サブ問題がお互いに関係しており、何回も現れる場合 → キャッシュできる
      • MDPはこの両方を満たす
        • ベルマン方程式
        • 問題の再帰的な分解
      • スケジュール
      • 文字列アルゴリズム
      • グラフアルゴリズム
      • グラフィカルアルゴリズム
      • 生物情報学
  • 動的計画法を使った計画

    • MDP の情報が全て分かっている前提
    • 予測: MDP と方策 \( \pi \) が分かっている時に、価値関数 \( v_ …

Continue reading

マルコフ決定過程 (MDP) - Google DeepMind の David Silver 氏による強化学習コース 講義2

Posted on 2018-09-02(日) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる。以下は、講義2 のメモです。

  • マルコフ決定過程 (MDP)

    • 環境が完全に観察可能
    • 状態が、過程を完全に規定する
    • 多くの強化学習問題が、MDP として定式化可能
    • 部分観測マルコフ決定過程 (POMDP) も、MDP に変換可能
    • バンディットアルゴリズムも、状態が一つしかない MDP
  • マルコフ性

    • 次に何が起こるかは、今の状態だけに依存
    • Lecture 1 参照
    • 状態遷移確率 \( P_{ss'} = P[S_{t+1} = s' | S_t = s] \) 行列で表現可能
  • マルコフ過程 …


Continue reading

強化学習入門 - Google DeepMind の David Silver 氏による強化学習コース 講義1

Posted on 2018-09-01(土) in Reinforcement Learning

「無料でアクセスできる最高の強化学習のコース」と名高い、Google DeepMind / University College London の David Silver 氏による強化学習のコース。こちらのページから、全ての講義スライドと講義ビデオが見られる

  • 教科書

    • An Introduction to Reinforcement Learning
      • 直感的, このコースで参照
    • Algorithms for Reinforcement Learning
      • 理論, 厳密
  • 強化学習とは

    • 様々な分野と関係
    • 工学、機械学習、神経科学(脳の報酬システムと関係)
    • 機械学習の3つの分類
      • 教師あり学習、教師なし学習、強化学習
  • 他の機械学習アルゴリズムとの違い

    • 教師の代わりに、報酬信号しかない
    • 報酬がすぐに得られるとは限らない
    • 時間の概念が重要。iid (独立同分布)データではない
    • エージェントが環境に影響を及ぼす→データも変わる
  • 強化学習の例

    • ヘリコプターの曲芸を学習
    • バックギャモンで世界チャンピオンに勝つ …

Continue reading