注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數(shù)據(jù)庫數(shù)據(jù)庫理論Hadoop與Spark大數(shù)據(jù)全景解析(視頻教學版)

Hadoop與Spark大數(shù)據(jù)全景解析(視頻教學版)

Hadoop與Spark大數(shù)據(jù)全景解析(視頻教學版)

定 價:¥98.00

作 者: 鄧杰
出版社: 清華大學出版社
叢編項:
標 簽: 暫缺

購買這本書可以去


ISBN: 9787302684800 出版時間: 2025-04-01 包裝: 平裝-膠訂
開本: 16開 頁數(shù): 字數(shù):  

內容簡介

  《Hadoop與Spark大數(shù)據(jù)全景解析:視頻教學版》結合作者多年在大數(shù)據(jù)領域的開發(fā)實踐經驗,采用“理論 實戰(zhàn)”的形式,以大量實例全面介紹Hadoop和Spark的基礎知識及其高級應用。作者將豐富的教學經驗,融入為讀者精心錄制的配套教學視頻中,并提供了書中所有實例的源碼,方便讀者學習和實踐?!禜adoop與Spark大數(shù)據(jù)全景解析:視頻教學版》分為4篇,共12章。第1篇(第1、2章)準備篇,主要介紹Hadoop和Spark的基本概念,以及如何快速搭建Hadoop和Spark的學習環(huán)境。第2篇(第3~6章)入門篇,涵蓋Hadoop的高級特性、Spark的基礎知識與高級特性,以及大數(shù)據(jù)安全。第3篇(第7~10章)進階篇,深入講解數(shù)據(jù)采集與清洗、數(shù)據(jù)存儲與管理、數(shù)據(jù)分析與挖掘以及實時數(shù)據(jù)處理。第4篇(第11、12章)項目實戰(zhàn)篇,通過Hadoop和Spark實現(xiàn)一站式數(shù)據(jù)分析系統(tǒng)設計,以及ChatGPT賦能Hadoop與Spark大數(shù)據(jù)分析的項目實戰(zhàn)?!禜adoop與Spark大數(shù)據(jù)全景解析:視頻教學版》內容全面、結構清晰、案例豐富,既適合初學者自學,也適合開發(fā)者閱讀,還可作為培訓機構和高校相關課程的教學參考書。

作者簡介

  鄧 杰計算機科學與技術專業(yè)學士,目前就職于vivo移動互聯(lián)網公司,負責平臺方向及A1大模型應用方向的開發(fā)。對Hadoop、Spark、Hive、Flink、Kafka等大數(shù)據(jù)生態(tài)組件有著深入的研究。AI大模型技術的實踐者和研究者,撰寫過多篇高質量Al和Hadoop與Spark相關技術的文章,著有《深入理解Hive:從基礎到高階》《Kafka并不難學》和《Hadoop大數(shù)據(jù)挖掘從入門到進階實戰(zhàn)》等書籍。

圖書目錄

第1篇  準    備
第1章  了解Hadoop和Spark 2
1.1  什么是大數(shù)據(jù)處理 2
1.1.1  大數(shù)據(jù)概述 2
1.1.2  數(shù)據(jù)處理的挑戰(zhàn) 4
1.2  為什么選擇Hadoop和Spark 5
1.2.1  Hadoop的優(yōu)勢 5
1.2.2  Spark的優(yōu)勢 6
1.3  典型的大數(shù)據(jù)應用案例 8
1.3.1  行業(yè)應用案例 8
1.3.2  成功案例分析 10
1.4  Hadoop和Spark的設計理念 12
1.4.1  設計初衷 12
1.4.2  解讀Hadoop和Spark的特性 13
1.5  本章小結 15
第2章  快速搭建Hadoop和Spark學習環(huán)境 16
2.1  Hadoop簡介 16
2.1.1  起源與發(fā)展 16
2.1.2  核心組件介紹 17
2.2  基礎環(huán)境的安裝與配置 19
2.2.1  基礎軟件下載 19
2.2.2  實例:Linux操作系統(tǒng)的安裝與配置 20
2.2.3  實例:SSH的安裝與配置 22
2.2.4  實例:Java運行環(huán)境的安裝與配置 24
2.2.5  實例:安裝與配置Zookeeper 26
2.3  Hadoop和Spark環(huán)境搭建 30
2.3.1  實例:Hadoop環(huán)境搭建 31
2.3.2  實例:Spark環(huán)境搭建 46
2.4  Hadoop MapReduce基礎 48
2.4.1  MapReduce編程模型之Map階段 48
2.4.2  MapReduce編程模型之Reduce階段 49
2.5  本章小結 51
2.6  習題 51
第2篇  入    門
第3章  Hadoop高級特性 54
3.1  HDFS架構深度解析 54
3.1.1  HDFS架構 54
3.1.2  數(shù)據(jù)塊管理 56
3.1.3  命名空間 57
3.1.4  數(shù)據(jù)一致性 58
3.2  YARN調度器與資源管理 60
3.2.1  YARN基本原理 60
3.2.2  資源分配策略 62
3.3  Hadoop數(shù)據(jù)安全性 63
3.3.1  安全策略概述 64
3.3.2  Kerberos認證 65
3.4  Hadoop性能調優(yōu) 68
3.4.1  集群性能監(jiān)控 68
3.4.2  參數(shù)調優(yōu)指南 69
3.5  Hadoop實戰(zhàn)案例 71
3.5.1  實際問題解決 71
3.5.2  最佳實踐分享 73
3.6  本章小結 77
3.7  習題 77
第4章  Spark基礎特性 78
4.1  Spark簡介 78
4.1.1  Spark發(fā)展歷程 78
4.1.2  Spark核心思想 79
4.2  Spark核心組件 80
4.2.1  Spark Core 81
4.2.2  Spark SQL 83
4.3  Spark基本數(shù)據(jù)結構 85
4.3.1  RDD概述 85
4.3.2  DataFrame和DataSet介紹 88
4.4  內存管理 96
4.4.1  內存分配策略 96
4.4.2  內存回收機制 101
4.5  本章小結 104
4.6  習題 104
第5章  Spark高級特性 105
5.1  Spark SQL與結構化數(shù)據(jù)處理 105
5.1.1  使用Spark SQL進行數(shù)據(jù)查詢和分析 105
5.1.2  Spark SQL數(shù)據(jù)類型與函數(shù)使用 109
5.2  Spark Streaming與實時數(shù)據(jù)處理 117
5.2.1  Spark Streaming的基本概念與架構 117
5.2.2  Spark Streaming與Kafka的集成與應用 122
5.3  Spark MLlib與機器學習 124
5.3.1  Spark MLlib的常用算法與應用場景 125
5.3.2  Spark MLlib與TensorFlow的比較與集成 132
5.4  Spark GraphX與圖計算 134
5.4.1  圖計算的基本概念與Spark GraphX的架構 134
5.4.2  Spark GraphX的常用算法與圖數(shù)據(jù)處理 140
5.5  本章小結 147
5.6  習題 147
第6章  大數(shù)據(jù)安全 148
6.1  大數(shù)據(jù)安全性挑戰(zhàn) 148
6.1.1  大數(shù)據(jù)安全的重要性 148
6.1.2  Hadoop與Spark安全特性 149
6.2  Hadoop安全架構 151
6.2.1  Hadoop安全模型 152
6.2.2  HDFS與YARN的安全機制 153
6.3  Spark安全實踐 155
6.3.1  Spark的安全配置 155
6.3.2  Spark應用程序的訪問控制 158
6.4  數(shù)據(jù)加密與隱私保護 164
6.5  身份認證與授權 174
6.6  本章小結 176
6.7  習題 176
第3篇  進    階
第7章  數(shù)據(jù)采集與清洗 178
7.1  Hadoop數(shù)據(jù)采集 178
7.1.1  數(shù)據(jù)源與采集工具 178
7.1.2  Hadoop數(shù)據(jù)采集流程與案例 181
7.2  Spark數(shù)據(jù)采集 185
7.2.1  Spark數(shù)據(jù)源接入方式 185
7.2.2  Spark數(shù)據(jù)采集的實踐與優(yōu)化 193
7.3  Hadoop數(shù)據(jù)清洗 197
7.3.1  數(shù)據(jù)清洗的基本概念與策略 197
7.3.2  使用MapReduce進行數(shù)據(jù)清洗 198
7.4  Hadoop與Spark數(shù)據(jù)處理對比 202
7.5  本章小結 204
7.6  習題 204
第8章  數(shù)據(jù)存儲與管理 205
8.1  大數(shù)據(jù)存儲架構 205
8.1.1  存儲架構的演變 205
8.1.2  存儲架構選擇指南 207
8.2  存儲格式與壓縮 214
8.2.1  數(shù)據(jù)格式比較 214
8.2.2  壓縮算法分析 216
8.3  數(shù)據(jù)分區(qū)與分桶 217
8.3.1  數(shù)據(jù)分區(qū) 218
8.3.2  數(shù)據(jù)分桶 226
8.4  數(shù)據(jù)倉庫設計 229
8.5  本章小結 231
8.6  習題 232
第9章  數(shù)據(jù)分析與挖掘 233
9.1  大數(shù)據(jù)分析 233
9.2  數(shù)據(jù)挖掘算法 237
9.2.1  數(shù)據(jù)挖掘算法的分類與應用場景 237
9.2.2  常見的大數(shù)據(jù)挖掘算法及其實現(xiàn)原理 239
9.3  特征工程 250
9.3.1  特征提取與構建 251
9.3.2  特征類型與數(shù)據(jù)分析方法 252
9.4  本章小結 256
9.5  習題 257
第10章  實時數(shù)據(jù)處理 258
10.1  實時處理概念 258
10.1.1  實時數(shù)據(jù)處理的定義 258
10.1.2  實時數(shù)據(jù)處理與批處理對比 260
10.2  Spark Streaming 262
10.2.1  DStream概述 263
10.2.2  實時數(shù)據(jù)處理模型 266
10.3  實時數(shù)據(jù)處理工具比較 271
10.3.1  Spark與Flink對比分析 271
10.3.2  Kafka實時計算引擎選型實踐 275
10.4  本章小結 284
10.5  習題 284
第4篇  項 目 實 戰(zhàn)
第11章  一站式數(shù)據(jù)分析系統(tǒng)設計與實現(xiàn) 286
11.1  大數(shù)據(jù)分析系統(tǒng) 286
11.1.1  大數(shù)據(jù)分析系統(tǒng)的價值 286
11.1.2  大數(shù)據(jù)分析系統(tǒng)的目的 287
11.1.3  大數(shù)據(jù)分析系統(tǒng)的應用場景 288
11.2  大數(shù)據(jù)分析系統(tǒng)架構 289
11.2.1  大數(shù)據(jù)分析系統(tǒng)的體系架構 289
11.2.2  設計大數(shù)據(jù)分析系統(tǒng)的核心模塊 291
11.3  實現(xiàn)大數(shù)據(jù)分析系統(tǒng) 292
11.3.1  數(shù)據(jù)采集 292
11.3.2  數(shù)據(jù)存儲 295
11.3.3  數(shù)據(jù)分析 302
11.3.4  數(shù)據(jù)服務 304
11.4  本章小結 306
11.5  習題 306
第12章  ChatGPT賦能Hadoop與Spark大數(shù)據(jù)分析 307
12.1  ChatGPT與大數(shù)據(jù)的智能融合探索 307
12.1.1  ChatGPT全面解析 307
12.1.2  ChatGPT在大數(shù)據(jù)分析中的角色 313
12.2  構建智能化的大數(shù)據(jù)處理引擎 316
12.2.1  ChatGPT與Spark的集成實現(xiàn) 316
12.2.2  ChatGPT與Spark應用案例分析 320
12.3  ChatGPT與Spark數(shù)據(jù)分析與挖掘實踐 324
12.3.1  ChatGPT與Spark技術整合 324
12.3.2  ChatGPT在Spark數(shù)據(jù)分析中的應用 326
12.4  本章小結 328
12.5  習題 328

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號