Ilya Sutskever 氏によるメタ学習と自己学習の最前線 (MIT 講義まとめ)
Posted on 2018-05-25(金) in Deep Learning
OpenAI の共同創立者兼研究ディレクターである Ilya Sutskever 氏。過去 5 年以内の論文の総引用数が 46,000 を超えるという、名実共に現在の人工知能・深層学習分野の第一人者でしょう。
MIT の「汎用人工知能(Artificial General Intelligence)」という講義シリーズの中でのSutskever 氏の講演が上がっていましたので、今回は抄訳とともにご紹介します。 メタ学習や自己学習など、最先端の話題もさることながら、進化論への言及など、非常に示唆深い、分かりやすい講演でおすすめです。
はじめに
- そもそも深層学習はなぜうまくいくか
- 定理:与えられたデータに対して、そのデータを生成できる最小のプログラムが、最も良い予測ができる
- ただし、データが与えられたときに、そのデータを生成できる最小のプログラムを見つけることは困難である
- 最小のプログラムの代わりに、最小の「回路」なら、逆伝播を使って見つけることができる
- AI の基礎となる事実
- ニューラルネットの訓練 → ニューラル「式」を解いている
- N個の Nビットの数字を、2つしか隠れ層を持たないニューラルネットでソートできる
- 強化学習
- エージェントを環境内で評価する枠組み
- 完璧ではないが「そこそこ良い」結果を出すアルゴリズムが存在する
- 問題点:報酬が環境によって与えられる点。現実では、エージェント(人間)が観察から報酬を「理解」する
- 本当の「報酬」は、生存か死亡か。それ以外は全てそれに帰結される
- アルゴリズム
- ロバストでシンプルだが、効率が良くない
- まとめ「ランダムに新しいことを試す。予測と現実を比較し、現実が予測を上回ったなら、これらの行動を強化するようにパラーメタを変える」
- 2つの手法
- Policy gradient
- 報酬の合計の期待値 → 微分 → 奇跡的に、上の「まとめ」と同じになる
- 方策オン型 (on-policy)
- 自分自身の行動からしか学習できない
- Q-learning
- 方策オフ型 (off-policy)
- 自分自身ではなく、他のエージェントからのデータでも学習できる
- Policy gradient
- 強化学習のポテンシャル
- サンプル効率性が良い
- 現在のアルゴリズムの効率は良くないが、徐々に改善している
メタ学習
- 学習方法を学習する
- システムを複数のタスクで訓練する
- インスタンスの代わりに、「タスク+テストケース」を与える
- 例
- [Mishra et al. 2017] 手書き文字を分類する
- [Zoph and Le, 2017] ニューラル構造サーチ
- 例 [Peng et al. 2017]
- 方策をシミュレーションで学習し、物理的なロボットに移すことができるか
- 問題:シミュレーターと現実が違う(特に摩擦などを再現するのが難しい)
- シミュレーター環境の物理条件にランダム性を加え、それに適応する方策を学習する
- 例 [Frans et al. 2017]
- 方策の階層
- メタ学習を利用し、タスクを最速で達成するための基礎行動を学習
-
現在の機械学習
- 訓練時とテスト時の設定が同じ
- 現実はそうではない(学校で学んだことが仕事で役立つとは限らない)
-
Hindsight Experience Replay (事後経験再現) [Andrychowicz et al. 2017]
- 強化学習の問題:報酬が無いと学習できない
- 「行動を経て、ゴールを達成できなかった」という経験、すなわち失敗から何かを学習できないか
- 例: A に到達したかったのに、B に到達してしまった
- 「A に到達できなかった。何も学べなかった」ではなく「A ではなく、B に到達する方法を学んだ」
- A に到達するとき、A に到達する方法の方策オン型学習をしているのと同時に、B に到達する方法の方策オフ型学習をしている
自己学習
- TD-Gammon [Tesauro, 1992]
- 2つのニューラルネットにバックギャモンの対戦をさせる
- 世界チャンピオンに勝つ戦略を生み出す
- AlphaGo Zero
- 囲碁の世界チャンピオンに外部データ無しで勝つ
- DOTA 2
- 1対1で世界チャンピオンに勝つ
- 自己学習の魅力
- エージェント自身が環境を作る
- 敵対関係にあることで、お互いに学習する
- 相撲 [Bansal et al., 2017]
- お互いを外に出すだけ
- 立つ、バランスを取るなど、何も分からない状態からスタート
- 学習するには、自分と同じぐらい賢い相手が必要。いつも勝っていたら学習しない
- 転移学習も起きる。相撲で学習したエージェントにランダムに力を加えてもバランスが取れる
- Dota 2 Bot
- はじめは弱かったが、数ヶ月で世界チャンピオンに匹敵するほどに
- 「自己学習は、計算をデータに変換する」
- 今後、コンピュータの能力が高まるにしたがって、さらに重要度を増す
- 未来
- 自己学習の結果が、外のタスクにも有用になるためにはどうしたらよいか
- 人間の脳は、過去200万年に渡って、急激にその容量が増大した
- Sutskever 氏の考え:「部族の中での立ち位置」が生存に重要であることに気づいた
- 他の「大きい脳を持つ」人間とうまくやっていくには、もっと大きな脳を持つことが生存に有利
- 制約の無い自己学習から、交渉、言語、政治などが生まれる可能性も。
- もし、このような環境から汎用知能が生まれ、かつ、Dota 2 Bot で見たような急激な能力の向上が引き継がれるなら、この汎用知能の能力も急速に向上するだろう
- アラインメント [Christiano et al., 2017]
- 目標をどうエージェントに伝えるか
- 行動を2つ人間に見せて、どちらか良いかを選ぶだけ
- 500回ぐらい選ぶと、シミュレーションした「足」が宙返りできるようになる
- Atari のゲームも学習できる