本書站在大數據落地應用的角度,系統(tǒng)闡述大數據從數據收集,到數據存儲、分布式協調及資源管理、計算引擎、分析工具,再到數據可視化這一完整流程,本書既包含主要技術的實現原理及其框架,也包含了具體落地指導,是幫助企業(yè)和個人整體了解大數據框架不可多得的參考書。本章主要包括6個部分共16章的內容,其中:第壹部分介紹了大數據體系架構,以及Google和Hadoop技術棧;第二部分介紹大數據分析相關技術,主要涉及關系型數據收集工具Sqoop與Canel、非關系型數據收集系統(tǒng)Flume以及分布式消息隊列Kafka;第三部分介紹大數據存儲相關技術,涉及數據存儲格式、分布式文件系統(tǒng)以及分布式數據庫;第四部分介紹資源管理和服務協調相關技術,涉及資源管理和調度系統(tǒng)YARN以及資源協調系統(tǒng)ZooKeeper;第五部分介紹計算引擎相關技術,涉及批處理、交互式處理以及流式實時處理三類引擎;第六部分數據分析相關技術,涉及基于數據分析語言HQL與SQL、大數據統(tǒng)一編程模型及機器學習庫等。