亚洲av无码精品国产成人,欧美一级片免费看

內(nèi)容簡介

　　《強化學習實戰(zhàn)：強化學習在阿里的技術演進和業(yè)務創(chuàng)新》匯集了阿里巴巴一線算法工程師在強化學習應用方面的經(jīng)驗和心得，覆蓋了阿里巴巴集團多個事業(yè)部的多條業(yè)務線?！稄娀瘜W習實戰(zhàn)：強化學習在阿里的技術演進和業(yè)務創(chuàng)新》系統(tǒng)地披露在互聯(lián)網(wǎng)級別的應用上使用強化學習的技術細節(jié)，更包含了算法工程師對強化學習的深入理解、思考和創(chuàng)新。作為算法工程師，你將了解到強化學習在實際應用中的建模方法、常見的問題以及對應的解決思路，提高建模和解決業(yè)務問題的能力；對于強化學習方向的研究人員，你將了解到在游戲之外更多實際的強化學習問題，以及對應的解決方案，擴寬研究視野；對于機器學習愛好者，你將了解到阿里巴巴的一線機器學習算法工程師是如何發(fā)現(xiàn)問題、定義問題和解決問題的，激發(fā)研究興趣以及提升專業(yè)素養(yǎng)。《強化學習實戰(zhàn)：強化學習在阿里的技術演進和業(yè)務創(chuàng)新》適合算法工程師、強化學習方向的專業(yè)人員閱讀，也可供機器學習愛好者參考。

作者簡介

　　笪慶，花名達卿阿里巴巴高級算法專家，碩士畢業(yè)于南京大學機器學習與數(shù)據(jù)挖掘研究所，增多次獲得國內(nèi)外數(shù)據(jù)挖掘/人工智能類競賽冠軍，發(fā)表多篇領域頂會論文。在阿里主要從事搜索算法排序的工作，并率先在集團內(nèi)開展強化學習在電商業(yè)務中的應用，實現(xiàn)了線上決策引擎的智能化決策升級。曾安祥，花名仁重阿里巴巴資深算法專家。于2009年加入阿里巴巴，作為淘寶搜索的創(chuàng)始人之一，先后參與組建了Query分析團隊和排序團隊等算法團隊，和伙伴們一起創(chuàng)造了領先的商品搜索技術。專注于大規(guī)模機器學習在線學習、深度學習及強化學習等技術在電商環(huán)境中的大規(guī)模實際應用。發(fā)表了多篇頂會論文，申請了多個國內(nèi)外專利。

圖書目錄

序
第1 章強化學習基礎 1
1.1 引言 2
1.2 起源和發(fā)展 3
1.3 問題建模 5
1.4 常見強化學習算法 8
1.4.1 基于值函數(shù)的方法 9
1.4.2 基于直接策略搜索的方法 12
1.5 總結 14

第2 章基于強化學習的實時搜索排序策略調(diào)控 15
2.1 研究背景 16
2.2 問題建模 17
2.2.1 狀態(tài)定義 17
2.2.2 獎賞函數(shù)設計 18
2.3 算法設計 19
2.3.1 策略函數(shù) 19
2.3.2 策略梯度 20
2.3.3 值函數(shù)的學習 21
2.4 獎賞塑形 22
2.5 實驗效果 25
2.6 DDPG 與梯度融合 27
2.7 總結與展望 28

第3 章延遲獎賞在搜索排序場景中的作用分析 30
3.1 研究背景 31
3.2 搜索交互建模 31
3.3 數(shù)據(jù)統(tǒng)計分析 33
3.4 搜索排序問題形式化 36
3.4.1 搜索排序問題建模 36
3.4.2 搜索會話馬爾可夫決策過程 38
3.4.3 獎賞函數(shù) 39
3.5 理論分析 40
3.5.1 馬爾可夫性質(zhì) 40
3.5.2 折扣率 41
3.6 算法設計 44
3.7 實驗與分析 48
3.7.1 模擬實驗 48
3.7.2 搜索排序應用 51

第4 章基于多智能體強化學習的多場景聯(lián)合優(yōu)化 54
4.1 研究背景 55
4.2 問題建模 57
4.2.1 相關背景簡介 57
4.2.2 建模方法 58
4.3 算法應用 65
4.3.1 搜索與電商平臺 65
4.3.2 多排序場景協(xié)同優(yōu)化 66
4.4 實驗與分析 69
4.4.1 實驗設置 69
4.4.2 對比基準 70
4.4.3 實驗結果 70
4.4.4 在線示例 73
4.5 總結與展望 75

第5 章虛擬淘寶 76
5.1 研究背景 77
5.2 問題描述 79
5.3 虛擬化淘寶 80
5.3.1 用戶生成策略 81
5.3.2 用戶模仿策略 83
5.4 實驗與分析 85
5.4.1 實驗設置 85
5.4.2 虛擬淘寶與真實淘寶對比 85
5.4.3 虛擬淘寶中的強化學習 87
5.5 總結與展望 90

第6 章組合優(yōu)化視角下基于強化學習的精準定向廣告OCPC 業(yè)務優(yōu)化92
6.1 研究背景 93
6.2 問題建模 94
6.2.1 獎賞設計 94
6.2.2 動作定義 94
6.2.3 狀態(tài)定義 95
6.3 模型選擇 100
6.4 探索學習 102
6.5 業(yè)務實戰(zhàn) 103
6.5.1 系統(tǒng)設計 103
6.5.2 獎賞設計 105
6.5.3 實驗效果 106
6.6 總結與展望 106

第7 章策略優(yōu)化方法在搜索廣告排序和競價機制中的應用 108
7.1 研究背景 109
7.2 數(shù)學模型和優(yōu)化方法 110
7.3 排序公式設計 112
7.4 系統(tǒng)簡介 113
7.4.1 離線仿真模塊 114
7.4.2 離線訓練初始化 114
7.5 在線策略優(yōu)化 117
7.6 實驗與分析 118
7.7 總結與展望 120

第8 章 TaskBot——阿里小蜜的任務型問答技術 121
8.1 研究背景 122
8.2 模型設計 123
8.2.1 意圖網(wǎng)絡 123
8.2.2 信念跟蹤 124
8.2.3 策略網(wǎng)絡 124
8.3 業(yè)務應用 126
8.4 總結與展望 127

第9 章 DRL 導購——阿里小蜜的多輪標簽推薦技術 128
9.1 研究背景 129
9.2 算法框架 130
9.3 深度強化學習模型 133
9.3.1 強化學習模塊 133
9.3.2 模型融合 134
9.4 業(yè)務應用 135
9.5 總結與展望 136

第10 章 Robust DQN 在淘寶錦囊推薦系統(tǒng)中的應用 137
10.1 研究背景 138
10.2 Robust DQN 算法 140
10.2.1 分層采樣方法 140
10.2.2 基于分層采樣的經(jīng)驗池 141
10.2.3 近似遺憾獎賞 142
10.2.4 Robust DQN 算法 143
10.3 Robust DQN 算法在淘寶錦囊上的應用 144
10.3.1 系統(tǒng)架構 144
10.3.2 問題建模 145
10.4 實驗與分析 147
10.4.1 實驗設置 148
10.4.2 實驗結果 148
10.5 總結與展望 152

第11 章基于上下文因子選擇的商業(yè)搜索引擎性能優(yōu)化 153
11.1 研究背景 154
11.2 排序因子和排序函數(shù) 156
11.3 相關工作 157
11.4 排序中基于上下文的因子選擇 158
11.5 RankCFS：一種強化學習方法 162
11.5.1 CFS 問題的 MDP 建模 162
11.5.2 狀態(tài)與獎賞的設計 163
11.5.3 策略的學習 165
11.6 實驗與分析 166
11.6.1 離線對比 167
11.6.2 在線運行環(huán)境的評價 170
11.6.3 雙11 評價 171
11.7 總結與展望 172

第12 章基于深度強化學習求解一類新型三維裝箱問題 173
12.1 研究背景 174
12.2 問題建模 175
12.3 深度強化學習方法 177
12.3.1 網(wǎng)絡結構 178
12.3.2 基于策略的強化學習方法 179
12.3.3 基準值的更新 180
12.3.4 隨機采樣與集束搜索 180
12.4 實驗與分析 181
12.5 小結 182

第13 章基于強化學習的分層流量調(diào)控 183
13.1 研究背景 184
13.2 基于動態(tài)動作區(qū)間的DDPG 算法 186
13.3 實驗效果 189
13.4 總結與展望 189

第14 章風險商品流量調(diào)控 190
14.1 研究背景 191
14.2 基于強化學習的問題建模 192
14.2.1 狀態(tài)空間的定義 192
14.2.2 動作空間的定義 193
14.2.3 獎賞函數(shù)的定義 193
14.2.4 模型選擇 194
14.2.5 獎賞函數(shù)歸一化 196
14.3 流量調(diào)控系統(tǒng)架構 196
14.4 實驗效果 197
14.5 總結與展望 197
參考文獻 199