強化学習は、人工知能(AI)の概念の中の機械学習に分類される分野です。機械学習の中には「教師あり学習」「教師なし学習」「強化学習」があります。いろいろなタスク(講義では「環境」と説明します)における最適な問題解決方法(方針「Policy」)を人間の脳が問題解決の方法を学習するようにエージェントに学習させていきます。
しかしながら強化学習は概念の理解と実装に至るまでのハードルが高く機械学習の上級者向けの内容となっています。
そこで強化学習クラスでは「エージェント」「環境」「行動」「状態」「報酬」といった、強化学習の基礎的な概念から学習していきます。
AIが発達して、今まで人間が考えなければいけないことをAIが考えることができるようになってきた昨今、強化学習は、ゴールが決まっているタスクに対して適用範囲が広く、今後強化学習のスキルはますます需要が高まると見込まれます。
強化学習は、特にレコメンドシステムや囲碁などのゲームやロボット制御においては、効率化や自動化がますます進化しており、すでに実用レベルに達しています。
そのため、今後、強化学習におけるスキルが益々重要視される傾向になると考えられます。
そして、そのような強化学習、その先にあるディープラーニングの知識とスキルを身につけ、活躍できるエンジニアとして第一歩を踏み出せることを目指します。
※補足メモ ———————————-
・最適化問題においては強化学習を利用することで、例えばルート営業で売上の高い順・近い距離で回るよう複数の制約(重み付け)を加えることが可能となり、効率的に売上をあげるための順番を教えてくれる
・強化学習のモデルはゲームなどで活用するものが多く、ビジネスで使えるものが少ないため、実践的な問題を学習したい
・機械学習(教師あり学習、強化学習、教師なし学習)、最適化問題は機械学習に入らない
・教師あり学習は正解が1つに決まっており、AIが正解を出してくれる。
・教師なし学習は正解を知らない状態でAIが写真などの猫について特徴を抽出して、規則を見つけたり、分類したりして正解に近いものを導き出す。(特徴を洗い出すときなどに利用する・データ分析に近い)
・強化学習とは、最終的なゴールは明確だが、正解がない。(例えば、ロボットが10m先まで歩くとする。ロボットがうまく歩くようにしたいが、ロボットが右足をあげるときに左足どうするかは特に決まりがなく、ゴールを達成する。特徴を見つけてもらい、ゴールを達成する)
・レコメンドのように売上を上げたいが、どうしたらあげられるかなどの正解がない。
・囲碁のロボットは、ある一定のルールに沿って、勝ちたいというゴールはあるが、ゴールまでの道のりには正解はない。
・最適化問題とは、ルート営業で訪問する順番を効率よくすることができる。
・Q値の更新量 = 学習係数 x (報酬 + 割引率 x 次の状態で最大のQ値 – 現在のQ値)
・教師あり学習を学び、次に教師なし学習を学ぶのが一般的。次のステップが強化学習
・機械学習は3つに分類
教師有り:正解がある、ゴールがある
教師無し:正解がなし、ゴールが無し
強化学習:正解がなし、ゴールがある