本書作者創(chuàng)辦了自己名字命名的研究型公司,本書涵蓋了從基本的構建模塊到最z先進的實踐。通過本書,你將探索強化學習的當前狀態(tài)、關注工業(yè)應用、學習大量算法,本書還有專門章節(jié)介紹如何將強化學習的解決方案部署到生產環(huán)節(jié)。這并不是一本隨用隨翻的工具書,書中包含很多數學知識,并期望讀者是熟悉機器學習的。本書的主要內容有:學習強化學習是什么,以及算法如何解決具體問題。掌握強化學習的基礎知識,包括馬爾可夫決策過程、動態(tài)規(guī)劃和時間差分算法。深入研究一系列基于值函數和政策梯度的算法。應用先進的強化學習解決方案,如元學習、分層學習、多智能體、模仿學習等。了解最z前沿的深度強化學習算法,包括Rainbow、PPO、TD3、SAC等。通過本書專門的配套網站獲得實踐代碼和案例。