廣宣學堂為您推出機器學習系列之 強化學習系列
人工智慧有一個充滿潛力的領域是強化學習 (Reinforcement Learning),不但具備了類似人類的決策要素,也內含了人類在學習中的摸索過程。包含最佳策略(Policy)的計算、獎勵機制(Reward)的建立、能夠根據經驗擁有檢討過去、推演未來的行為特質。這幾年來,強化學習已經在各種層面的決策應用表現突出 (包括 AlphaGo),並且也成為目前人工智慧一個受人矚目的領域。
廣宣學堂特別邀請在人工智慧領域深入研究、又在國外知名數據公司擁有實戰經驗的洪博士,以精華、高效方式,帶領您一次綜覽強化學習的各個重要議題與內容,並且配合實作,讓學習更有收穫。最好的投資,是投資自己的競爭力,在專業上多人一步、勝人一籌 !
課程內容:
高品質教學、詳細研究、深入實作
一. 強化學習概論
環境因素與智慧代理人 / 策略與規劃(Policy and Planning) / 價值函數(Value Function) / 運作模型介紹 / 獎勵與懲罰機制 /最佳價值函數 /馬可夫決策問題(MDP)
二、深入強化學習
有限馬可夫決策處理(FMDP) / 動態規劃 / 蒙地卡羅方法(Monte Carlo Method) / 時間差分學習 / Q學習(Q-Learning) / 策略梯度法(Policy Gradient Method)
三、 深度強化學習
深度Q學習網路(DQN) / 演員評判家方法 (Actor Critic method) / deepmind 的 Deep Deterministic Policy Gradients(DDPG) / 從 AC 到 A3C / Distributed Proximal Policy Optimization (DPPO)
四、Case Study :
1. AlphaGo原理講解
2. 問答推薦系統強化學習等
六小時精彩扼要課程、句句精華。(講師依學員實際狀況動態調整進度)