注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計Python深度強化學習:使用PyTorch, TensorFlow 和OpenAI Gym

Python深度強化學習:使用PyTorch, TensorFlow 和OpenAI Gym

Python深度強化學習:使用PyTorch, TensorFlow 和OpenAI Gym

定 價:¥69.00

作 者: [印]尼米什·桑吉(Nimish Sanghi)著,羅俊海 譯
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787302607724 出版時間: 2022-10-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  本書重點突出深度強化學習理論的基本概念、前沿基礎理論和Python應用實現(xiàn)。首先介紹馬爾可夫決策、基于模型的算法、無模型方法、動態(tài)規(guī)劃、蒙特卡洛和函數(shù)逼近等基礎知識;然后詳細闡述強化學習、深度強化學習、多智能體強化學習等算法,及其Python應用實現(xiàn)。本書既闡述獎勵、價值函數(shù)、模型和策略等重要概念和基礎知識,又介紹深度強化學習理論的前沿研究和熱點方向。本書英文版出版之后,廣受好評,已成為深度強化學習領域暢銷教材,也可為人工智能和機器學習等領域的科研工作者、技術工程師提供參考。

作者簡介

  作者簡介Nimish Sanghi(尼米什·桑吉)一位充滿激情的技術領導者,專注于使用技術解決客戶問題,在軟件和咨詢領域擁有超過25年的工作經(jīng)驗,擁有人工智能和深度學習的多項證書,獲得印度理工學院電氣工程學士學位、印度管理學院工商管理碩士學位。曾在普華永道、IBM和Oracle等公司擔任領導職務,負責盈虧管理。2006年,在SOAIS公司開啟軟件咨詢創(chuàng)業(yè)之旅,為《財富》100強的眾多公司提供自動化和數(shù)字化轉型服務,實現(xiàn)從本地應用到云計算的轉型。人工智能和自動化驅動的初創(chuàng)公司領域的天使投資人,聯(lián)合創(chuàng)立面向印度市場的SaaS人力資源和薪資Paybooks平臺,聯(lián)合創(chuàng)立提供人工智能驅動的工作流ZipperAgent自動化平臺和視頻營銷ZipperHQ自動化平臺(總部位于波士頓的初創(chuàng)公司),現(xiàn)任這兩個平臺的首席技術官和首席數(shù)據(jù)科學家。譯者簡介羅俊海,博士(后),電子科技大學副教授、碩士生導師。主要研究方向為智能計算、目標檢測和數(shù)據(jù)融合,主持國家自然科學基金、四川省科技廳基金、總裝預研基金和中央高?;究蒲袠I(yè)務等15項,參與制訂標準6項,發(fā)表文章60余篇,其中SCI檢索50余篇,總引用1500余次。申請和授權發(fā)明專利30余項,獲四川省科學技術進步獎二等獎和三等獎各1項。出版《多源數(shù)據(jù)融合和傳感器管理》《使用HTML和CSS開發(fā)WEB網(wǎng)站》《物聯(lián)網(wǎng)系統(tǒng)開發(fā)及應用實戰(zhàn)》等專著和教材5部,以及譯著《實用MATLAB深度學習:基于項目的方法》。

圖書目錄

第1章強化學習導論
1.1強化學習概述
1.2機器學習分類
1.2.1監(jiān)督學習
1.2.2無監(jiān)督學習
1.2.3強化學習
1.2.4核心元素
1.3基于強化學習的深度學習
1.4實例和案例研究
1.4.1自動駕駛汽車
1.4.2機器人
1.4.3推薦系統(tǒng)
1.4.4金融和貿易
1.4.5醫(yī)療保健
1.4.6游戲
1.5庫與環(huán)境設置
1.6總結
第2章馬爾可夫決策
2.1強化學習的定義
2.2智能體和環(huán)境
2.3獎勵
2.4馬爾可夫過程
2.4.1馬爾可夫鏈
2.4.2馬爾可夫獎勵
過程
2.4.3馬爾可夫決策
過程
2.5策略和價值函數(shù)
2.6貝爾曼方程
2.6.1貝爾曼方程
2.6.2解決方法類型的
思維導圖
2.7總結
第3章基于模型的算法
3.1OpenAI Gym
3.2動態(tài)規(guī)劃
3.3策略評估/預測
3.4策略改進和迭代
3.5價值迭代
3.6廣義策略迭代
3.7異步回溯
3.8總結
第4章無模型方法
4.1蒙特卡洛估計/預測
4.2蒙特卡洛控制
4.3離線策略MC控制
4.4TD學習方法
4.5TD控制
4.6在線策略SARSA
4.7Q學習: 離線策略
TD控制
4.8偏差和雙重學習
4.9期望SARSA控制
4.10回放池和離線策略學習
4.11連續(xù)狀態(tài)空間的Q學習
4.12n步回報
4.13資格跡和TD(λ)
4.14DP、MC和TD之間
的關系
4.15總結
第5章函數(shù)逼近
5.1概述
5.2逼近理論
5.2.1粗編碼
5.2.2瓦片編碼
5.2.3逼近中的挑戰(zhàn)
5.3增量預測: MC、TD和
TD(λ)
5.4增量控制
5.4.1n步半梯度SARSA
控制
5.4.2半梯度SARSA(λ)
控制
5.5函數(shù)逼近的收斂性
5.6梯度時序差分學習
5.7批處理方法
5.8線性小二乘法
5.9深度學習庫
5.10總結
 
 
 
第6章深度Q學習
6.1DQN
6.2優(yōu)先回放
6.3雙Q學習
6.4競爭DQN
6.5噪聲網(wǎng)DQN
6.6C51
6.7分位數(shù)回歸DQN
6.8事后經(jīng)驗回放
6.9總結
第7章策略梯度算法
7.1引言
7.1.1基于策略的方法的
利弊
7.1.2策略表征
7.2策略梯度推導
7.2.1目標函數(shù)
7.2.2導數(shù)更新規(guī)則
7.2.3更新規(guī)則的運算
原理
7.3強化算法
7.3.1帶獎勵因子的
方差減少
7.3.2進一步減少基線
差異
7.4演員評論家方法
7.4.1定義優(yōu)勢
7.4.2優(yōu)勢演員評論家
7.4.3A2C算法的
實現(xiàn)
7.4.4異步優(yōu)勢演員
評論家
7.5信賴域策略優(yōu)化算法
7.6近似策略優(yōu)化算法
7.7總結
第8章結合策略梯度和Q學習
8.1策略梯度與Q學習
的權衡
8.2結合策略梯度與Q學習的
一般框架
8.3深度確定性策略梯度
8.3.1Q學習在DDPG中的
應用(評論家)
8.3.2DDPG中的策略
學習(演員)
8.3.3偽代碼和實現(xiàn)
8.3.4代碼實現(xiàn)
8.4雙延遲DDPG
8.4.1目標策略平滑
8.4.2Q損失(評論家)
8.4.3策略損失(演員)
8.4.4延遲更新
8.4.5偽代碼和實現(xiàn)
8.4.6代碼實現(xiàn)
8.5重參數(shù)化技巧
8.5.1分數(shù)/強化方法
8.5.2重參數(shù)化技巧與
路徑導數(shù)
8.5.3實驗
8.6熵解釋
8.7軟演員評論家
8.7.1SAC與TD3
8.7.2熵正則化下的
Q損失
8.7.3具有重參數(shù)技巧的
策略損失
8.7.4偽代碼及其實現(xiàn)
8.7.5代碼實現(xiàn)
8.8總結
第9章綜合規(guī)劃與學習
9.1基于模型的強化學習
9.1.1使用學習的模型
進行規(guī)劃
9.1.2集成學習與規(guī)劃
9.1.3Dyna Q和變化
的環(huán)境
9.1.4Dyna Q
9.1.5期望與示例更新
9.2探索vs利用
9.2.1多臂強盜
9.2.2后悔值: 探索質量的
衡量標準
9.3決策時間規(guī)劃和蒙特
卡洛樹搜索
9.4AlphaGo模擬實驗
9.5總結
第10章進一步的探索與后續(xù)
工作
10.1基于模型的強化學習: 
其他方法
10.1.1世界模型
10.1.2想象力增強智
能體
10.1.3基于模型的強化
學習和無模型
微調
10.1.4基于模型的價值
擴展
10.2模仿學習和逆強化
學習
10.3無導數(shù)方法
10.4遷移學習和多任務
學習
10.5元學習
10.6流行的強化學習庫
10.7如何繼續(xù)學習
10.8總結
術語
 

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號