注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫ODPS權威指南:阿里大數據平臺應用開發(fā)實踐

ODPS權威指南:阿里大數據平臺應用開發(fā)實踐

ODPS權威指南:阿里大數據平臺應用開發(fā)實踐

定 價:¥69.00

作 者: 李妹芳 著
出版社: 人民郵電出版社
叢編項:
標 簽: 計算機/網絡 數據倉庫與數據挖掘 數據庫

購買這本書可以去


ISBN: 9787115372413 出版時間: 2014-12-01 包裝: 平裝
開本: 16開 頁數: 320 字數:  

內容簡介

  ODPS(Open Data Processing Service)是阿里巴巴自主研發(fā)的海量數據處理和分析的服務平臺,主要應用于數據分析、海量數據統(tǒng)計、數據挖掘、機器學習和商業(yè)智能等領域。目前,ODPS不僅在阿里內部得到廣泛應用,享有很好的口碑,正逐步走向第三方開放市場?!禣DPS權威指南:阿里大數據平臺應用開發(fā)實踐》是學習和掌握ODPS的權威指南,作者來自阿里ODPS團隊。全書共13章,主要內容包括:ODPS入門、整體架構、數據通道、MapReduce編程、SQL查詢分析、安全,以及基于真實數據的各種場景分析實戰(zhàn)。本書基于很多范例解析,通過在各種應用場景下的示例來說明如何通過ODPS完成各種需求,以期引導讀者從零開始輕松掌握和使用ODPS。同時,本書不局限于示例分析,也致力于提供更多關于大數據處理的編程思想和經驗分享。書中所有示例代碼都可以在作者提供的網站上免費下載。本書適合想要了解和使用ODPS的讀者閱讀學習,對于從事大數據存儲和應用以及分布式計算的專業(yè)人士來說,也是很好的參考資料。

作者簡介

  李妹芳,阿里數據平臺事業(yè)部工程師,曾譯有《Linux系統(tǒng)編程》、《數據之美》、《數據可視化之美》等書

圖書目錄

前言
第1章 ODPS概述
1.1 引言
1.2 初識ODPS
1.2.1 背景和挑戰(zhàn)
1.2.2 為什么做ODPS
1.2.3 ODPS是什么
1.2.4 ODPS做什么
1.3 基本概念
1.3.1 賬號(Account)
1.3.2 項目空間(Project)
1.3.3 表(Table)
1.3.4 分區(qū)(Partition)
1.3.5 任務(Task)、作業(yè)(Job)和作業(yè)實例(Instance)
1.3.6 資源(Resource)
1.4 應用開發(fā)模式
1.4.1 RESTful API
1.4.2 ODPS SDK
1.4.3 ODPS CLT
1.4.4 管理控制臺
1.4.5 IDE
1.5 一些典型場景
1.5.1 阿里金融數據倉庫
1.5.2 CNZZ數據倉庫
1.5.3 支付寶賬號影響力圈
1.5.4 阿里金融水文衍生算法
1.5.5 阿里媽媽廣告CTR預估
1.6 現狀和前景
1.7 小結
第2章 ODPS入門
2.1 準備工作
2.1.1 創(chuàng)建云賬號
2.1.2 開通ODPS服務
2.2 使用管理控制臺
2.3 配置ODPS客戶端
2.3.1 下載和配置CLT
2.3.2 準備dual表
2.3.3 CLT運行模式
2.3.4 下載和配置dship
2.3.5 通過dship上傳下載數據
2.4 網站日志分析實例
2.4.1 場景和數據說明
2.4.2 需求分析
2.4.3 數據準備
2.4.4 創(chuàng)建表并添加分區(qū)
2.4.5 數據解析和導入
2.4.6 數據加工
2.4.7 數據分析
2.4.8 自動化運行
2.4.9 應用數據集市
2.4.10 結果導出
2.4.11 結果展現
2.4.12 刪除數據
2.5 小結
第3章 收集海量數據
3.1 DSHIP工具
3.2 收集WEB日志
3.2.1 場景和需求說明
3.2.2 問題分析和設計
3.2.3 實現說明
3.2.4 進一步探討
3.2.5 為什么這么難
3.3 MYSQL數據同步到ODPS
3.3.1 場景和需求說明
3.3.2 問題分析和實現
3.3.3 進一步探討
3.4 下載結果表
3.5 小結
第4章 使用SQL處理海量數據
4.1 ODPS SQL是什么
4.2 入門示例
4.2.1 場景說明
4.2.2 簡單的DDL操作
4.2.3 生成數據
4.2.4 單表查詢
4.2.5 多表連接JOIN
4.2.6 高級查詢
4.2.7 多表關聯UNION ALL
4.2.8 多路輸出(MULTI-INSERT)
4.3 網站日志分析
4.3.1 準備數據和表
4.3.2 維度表
4.3.3 訪問路徑分析
4.3.4 TopK查詢
4.3.5 IP黑名單
4.4 天貓品牌預測
4.4.1 主題說明和前期準備
4.4.2 理解數據
4.4.3 兩個簡單的實踐
4.4.4 問題分析和算法設計
4.4.5 生成特征
4.4.6 抽取正負樣本
4.4.7 生成模型
4.4.8 驗證模型
4.4.9 預測結果
4.4.10 進一步探討
4.5 小結
第5章 SQL進階
5.1 UDF是什么
5.2 入門示例
5.3 實際應用案例
5.3.1 URL解碼
5.3.2 簡單的LBS應用
5.3.3 網站訪問日志UserAgent解析
5.4 SQL實現原理
5.4.1 詞法分析
5.4.2 語法分析
5.4.3 邏輯分析
5.4.4 物理分析
5.5 SQL調優(yōu)
5.5.1 數據傾斜
5.5.2 一些優(yōu)化建議
5.5.3 一些注意事項
5.6 小結
第6章 通過TUNNEL遷移數據
6.1 ODPS TUNNEL 是什么
6.2 入門示例
6.2.1 下載和配置
6.2.2 準備數據
6.2.3 上傳數據
6.2.4 下載數據
6.3 TUNNEL原理
6.3.1 數據如何傳輸
6.3.2 客戶端和服務端如何交互
6.3.3 如何實現高并發(fā)
6.4 從HADOOP遷移到ODPS
6.4.1 問題分析
6.4.2 客戶端實現和分析
6.4.3 Mapper實現和分析
6.4.4 編譯和運行
6.4.5 進一步探討
6.5 一些注意點
6.6 小結
第7章 使用MAPREDUCE處理數據
7.1 MAPREDUCE編程模型
7.2 MAPREDUCE應用場景
7.3 初識ODPS MAPREDUCE
7.4 入門示例
7.4.1 準備工作
7.4.2 問題分析
7.4.3 代碼實現和分析
7.4.4 運行和輸出分析
7.4.5 擴展:使用Combiner?
7.5 TOPK查詢
7.5.1 場景和數據說明
7.5.2 問題分析
7.5.3 具體實現分析
7.5.4 運行和結果輸出
7.5.5 擴展:忽略Stop Words
7.5.6 擴展:數據和任務統(tǒng)計
7.5.7 擴展: MR2模型
7.6 SQL和MAPREDUCE,用哪個?
7.7 小結
第8章 MAPREDUCE進階
8.1 再談SHUFFLE & SORT
8.2 好友推薦
8.2.1 場景和數據說明
8.2.2 問題定義和分析
8.2.3 代碼實現
8.3 LBS應用探討:周邊定位
8.3.1 場景和數據說明
8.3.2 問題定義和分析
8.3.3 代碼實現和分析
8.3.4 運行和測試
8.4 MAPREDUCE調試
8.4.1 帶bug的代碼
8.4.2 通過本地模式調試
8.4.3 通過Counter調試
8.4.4 通過log調試
8.5 一些注意點
8.6 小結
第9章 機器學習算法
9.1 初識ODPS算法
9.2 入門示例
9.2.1 通過CLT統(tǒng)計分析
9.2.2 通過XLab統(tǒng)計分析
9.3 幾個經典的算法
9.3.1 邏輯回歸
9.3.2 隨機森林
9.4 天貓品牌預測
9.4.1 邏輯回歸
9.4.2 隨機森林
9.4.3 腳本實現和自動化
9.4.4 進一步探討
9.5 小結
第10章 使用SDK訪問ODPS服務
10.1 主要的PACKAGE和接口
10.1.1 主要的Package
10.1.2 核心接口
10.2 入門示例
10.3 基于ECLIPSE插件開發(fā)
10.4 小結
第11章 ODPS賬號、資源和數據管理
11.1 權限管理
11.1.1 賬號授權
11.1.2 角色(Role)授權
11.1.3 ACL授權特點
11.1.4 簡單的Policy授權
11.1.5 Role Policy
11.1.6 ACL授權和Policy授權小結
11.2 資源管理
11.2.1 Project內的資源管理
11.2.2 跨Project的資源共享
11.3 數據管理
11.3.1 表生命周期
11.3.2 數據歸并(Merge)
11.3.3 數據保護(Project Protection)
11.4 小結
第12章 深入了解ODPS
12.1 體系架構
12.1.1 客戶端
12.1.2 接入層
12.1.3 邏輯層
12.1.4 存儲/計算層
12.2 執(zhí)行流程
12.2.1 提交作業(yè)
12.2.2 運行作業(yè)
12.2.3 查詢作業(yè)狀態(tài)
12.2.4 執(zhí)行邏輯圖
12.3 底層數據存儲
12.3.1 CFILE是什么
12.3.2 CFILE邏輯結構
12.4 內聚式框架
12.4.1 元數據
12.4.2 運維管理
12.4.3 多控制集群和多計算集群
12.5 跨集群復制
12.5.1 數據遷移
12.5.2 跨集群同步
12.6 小結
第13章 探索ODPS之美
13.1 R語言數據探索
13.1.1 安裝和配置
13.1.2 一些基本操作
13.1.3 分析建模
13.2 實時流計算
13.3 圖計算模型
13.4 準實時SQL
13.5 機器學習平臺
附錄一 ODPS消息認證機制
后記

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號