注冊 | 登錄讀書好,好讀書,讀好書!
讀書網-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網絡數據庫Hadoop權威指南(第3版修訂版)

Hadoop權威指南(第3版修訂版)

Hadoop權威指南(第3版修訂版)

定 價:¥99.00

作 者: (美)Tom White 著; 華東師范大學數據科學與工程學院 譯
出版社: 清華大學出版社
叢編項:
標 簽: 計算機與互聯網 數據庫

購買這本書可以去


ISBN: 9787302370857 出版時間: 2015-01-01 包裝: 平裝
開本: 16開 頁數: 716 字數:  

內容簡介

  準備好釋放數據的強大潛能了嗎?借助于這本《Hadoop權威指南》,你將學習如何使用ApacheHadoop構建和維護穩(wěn)定性高、伸縮性強的分布式系統(tǒng)。本書是為程序員寫的,可幫助他們分析任何大小的數據集。本書同時也是為管理員寫的,幫助他們了解如何設置和運行Hadoop集群?!禜adoop權威指南(第3版 修訂版)》通過豐富的案例學習來解釋Hadoop的幕后機理,闡述了Hadoop如何解決現實生活中的具體問題。第3版覆蓋Hadoop的最新動態(tài),包括新增的MapReduceAPI,以及MapReduce2及其靈活性更強的執(zhí)行模型(YARN)。

作者簡介

  Tom White,數學王子&Hadoop專家。身為Apache Hadoop提交者八年之久,Apache軟件基金會成員之一。全球知名云計算公司Cloudera的軟件工程師。Tom擁有英國劍橋大學數學學士學位和利茲大學科學哲學碩士學位。

圖書目錄

第1章 初識Hadoop
1.1 數據!數據!
1.2 數據的存儲與分析
1.3 相較于其他系統(tǒng)的優(yōu)勢
1.3.1 關系型數據庫管理系統(tǒng)
1.3.2 網格計算
1.3.3 志愿計算
1.4 Hadoop發(fā)展簡史
1.5 Apache Hadoop和Hadoop生態(tài)系統(tǒng)
1.6 Hadoop的發(fā)行版本
1.6.1 本書包含的內容
1.6.2 兼容性
第2章 關于MapReduce
2.1 氣象數據集
2.2 使用Unix工具來分析數據
2.3 使用Hadoop來分析數據
2.3.1 map和reduce
2.3.2 Java MapReduce
2.4 橫向擴展
2.4.1 數據流
2.4.2 combiner函數
2.4.3 運行分布式的MapReduce作業(yè)
2.5 Hadoop Streaming
2.5.1 Ruby版本
2.5.2 Python版本
2.6 Hadoop Pipes
第3章 Hadoop分布式文件系統(tǒng)
3.1 HDFS的設計
3.2 HDFS的概念
3.2.1 數據塊
3.2.2 namenode和datanode
3.2.3 聯邦HDFS
3.2.4 HDFS的高可用性
3.3 命令行接口
3.4 Hadoop文件系統(tǒng)
3.5 Java接口
3.5.1 從Hadoop URL讀取數據
3.5.2 通過FileSystem API讀取數據
3.5.3 寫入數據
3.5.4 目錄
3.5.5 查詢文件系統(tǒng)
3.5.6 刪除數據
3.6 數據流
3.6.1 剖析文件讀取
3.6.2 剖析文件寫入
3.6.3 一致模型
3.7 通過Flume和Sqoop導入數據
3.8 通過distcp并行復制
3.9 Hadoop存檔
3.9.1 使用Hadoop存檔工具
3.9.2 不足
第4章 Hadoop的I/O操作
4.1 數據完整性
4.1.1 HDFS的數據完整性
4.1.2 LocalFileSystem
4.1.3 ChecksumFileSystem
4.2 壓縮
4.2.1 codec
4.2.2 壓縮和輸入分片
4.2.3 在MapReduce中使用壓縮
4.3 序列化
4.3.1 Writable接口
4.3.2 Writable類
4.3.3 實現定制的Writable集合
4.3 序列化框架
4.4 Avro
4.4.1 Avro數據類型和模式
4.4.2 內存中的序列化和反序列化
4.4.3 Avro數據文件
4.4.4 互操作性
4.4.5 模式的解析
4.4.6 排列順序
4.4.7 關于Avro MapReduce
4.4.8 使用Avro MapReduce進行排序
4.4.9 其他語言的Avro MapReduce
4.5 基于文件的數據結構
4.5.1 關于SequenceFile
4.5.2 關于MapFile
第5章 MapReduce應用開發(fā)
5.1 用于配置的API
5.1.1 資源合并
5.1.2 可變的擴展
5.2 配置開發(fā)環(huán)境
5.2.1 管理配置
5.2.2 輔助類GenericOptionsParser,Tool和ToolRunner
5.3 用MRUnit來寫單元測試
5.3.1 關于Mapper
5.3.2 關于Reducer
5.4 本地運行測試數據
5.4.1 在本地作業(yè)運行器上運行作業(yè)
5.4.2 測試驅動程序
5.5 在集群上運行
5.5.1 打包作業(yè)
5.5.2 啟動作業(yè)
5.5.3 MapReduce的Web界面
5.5.4 獲取結果
5.5.5 作業(yè)調試
5.5.6 Hadoop日志
5.5.7 遠程調試
5.6 作業(yè)調優(yōu)
5.7 MapReduce的工作流
5.7.1 將問題分解成MapReduce作業(yè)
5.7.2 關于JobControl
5.7.3 關于Apache Oozie
第6章 MapReduce的工作機制
6.1 剖析MapReduce作業(yè)運行機制
6.1.1 經典的MapReduce (MapReduce 1)
6.1.2 YARN (MapReduce 2)
6.2 失敗
6.2.1 經典MapReduce中的失敗
6.2.2 YARN中的失敗
6.3 作業(yè)的調度
6.3.1 公平調度器
6.3.2 容量調度器
6.4 shuffle和排序
6.4.1 map端
6.4.2 reduce端
6.4.3 配置調優(yōu)
6.5 任務的執(zhí)行
6.5.1 任務執(zhí)行環(huán)境
6.5.2 推測執(zhí)行
6.5.3 關于OutputCommitters
6.5.4 任務JVM重用
6.5.5 跳過壞記錄
第7章 MapReduce的類型與格式
7.1 MapReduce的類型
7.1.1 默認的MapReduce作業(yè)
7.1.2 默認的Streaming作業(yè)
7.2 輸入格式
7.2.1 輸入分片與記錄
7.2.2 文本輸入
7.2.3 二進制輸入
7.2.4 多個輸入
7.2.5 數據庫輸入(和輸出)
7.3 輸出格式
7.3.1 文本輸出
7.3.2 二進制輸出
7.3.3 多個輸出
7.3.4 延遲輸出
7.3.5 數據庫輸出
第8章 MapReduce的特性
8.1 計數器
8.1.1 內置計數器
8.1.2 用戶定義的Java計數器
8.1.3 用戶定義的Streaming計數器
8.2 排序
8.2.1 準備
8.2.2 部分排序
8.2.3 全排序
8.2.4 輔助排序
8.3 連接
8.3.1 map端連接
8.3.2 reduce端連接
8.4 邊數據分布
8.4.1 利用JobConf來配置作業(yè)
8.4.2 分布式緩存
8.5 MapReduce庫類
第9章 構建Hadoop集群
9.1 集群規(guī)范
9.2 集群的構建和安裝
9.2.1 安裝Java
9.2.2 創(chuàng)建Hadoop用戶
9.2.3 安裝Hadoop
9.2.4 測試安裝
9.3 SSH配置
9.4 Hadoop配置
9.4.1 配置管理
9.4.2 環(huán)境設置
9.4.3 Hadoop守護進程的關鍵屬性
9.4.4 Hadoop守護進程的地址和端口
9.4.5 Hadoop的其他屬性
9.4.6 創(chuàng)建用戶帳號
9.5 YARN配置
9.5.1 YARN守護進程的重要屬性
9.5.2 YARN守護進程的地址和端口
9.6 安全性
9.6.1 Kerberos和Hadoop
9.6.2 委托令牌
9.6.3 其他安全性改進
9.7 利用基準評測程序測試Hadoop集群
9.7.1 Hadoop基準評測程序
9.7.2 用戶作業(yè)
9.8 云端的Hadoop
第10章 管理Hadoop
10.1 HDFS
10.1.1 永久性數據結構
10.1.2 安全模式
10.1.3 日志審計
10.1.4 工具
10.2 監(jiān)控
10.2.1 日志
10.2.2 度量
10.2.3 Java管理擴展(JMX)
10.3 維護
10.3.1 日常管理過程
10.3.2 委任和解除節(jié)點
10.3.3 升級
第11章 關于Pig
11.1 安裝與運行Pig
11.1.1 執(zhí)行類型
11.1.2 運行Pig程序
11.1.3 Grunt
11.1.4 Pig Latin編輯器
11.2 示例
11.3 與數據庫進行比較
11.4 Pig Latin
11.4.1 結構
11.4.2 語句
11.4.3 表達式
11.4.4 類型
11.4.5 模式
11.4.6 函數
11.4.7 宏
11.5 用戶自定義函數
11.5.1 過濾UDF
11.5.2 計算UDF
11.5.3 加載UDF
11.6 數據處理操作
11.6.1 數據的加載和存儲
11.6.2 數據的過濾
11.6.3 數據的分組與連接
11.6.4 數據的排序
11.6.5 數據的組合和切分
11.7 Pig實戰(zhàn)
11.7.1 并行處理
11.7.2 參數代換
第12章 關于Hive
12.1 安裝Hive
12.2 示例
12.3 運行Hive
12.3.1 配置Hive
12.3.2 Hive服務
12.3.3 Metastore
12.4 Hive與傳統(tǒng)數據庫相比
12.4.1 讀時模式vs.寫時模式
12.4.2 更新、事務和索引
12.5 HiveQL
12.5.1 數據類型
12.5.2 操作與函數
12.6 表
12.6.1 托管表和外部表
12.6.2 分區(qū)和桶
12.6.3 存儲格式
12.6.4 導入數據
12.6.5 表的修改
12.6.6 表的丟棄
12.7 查詢數據
12.7.1 排序和聚集
12.7.2 MapReduce腳本
12.7.3 連接
12.7.4 子查詢
12.7.5 視圖
12.8 用戶定義函數
12.8.1 寫UDF
12.8.2 寫UDAF
第13章 關于HBase
13.1 HBase基礎
13.2 概念
13.3.1 數據模型的"旋風之旅"
13.3.2 實現
13.3 安裝
13.4 客戶端
13.4.1 Java
13.4.2 Avro、REST和Thrift
13.5 示例
13.5.1 模式
......

本目錄推薦

掃描二維碼
Copyright ? 讀書網 www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網安備 42010302001612號