企業(yè)數(shù)據(jù)的分析始于讀取、過濾和合并來自多個數(shù)據(jù)源的文件和數(shù)據(jù)流。Spark數(shù)據(jù)處理引擎是這方面的佼佼者,可處理各種量級的數(shù)據(jù),其傳輸速度比Hadoop系統(tǒng)快100倍。得益于SQL的支持、直觀的界面和簡單的多語言API,你可輕松使用Spark,而不必學習復雜的新型生態(tài)系統(tǒng)?!禨park實戰(zhàn)(第2版)》將引導你創(chuàng)建端到端分析應用程序。在書中,你可學習基于Java的有趣示例,包括用于處理NASA衛(wèi)星數(shù)據(jù)的完整數(shù)據(jù)管道。你還可查看托管在GitHub上的有關Java、Python和Scala的代碼示例,并探索、修改此代碼。此外,《Spark實戰(zhàn)(第2版)》的附錄為你提供速查表,幫助你安裝工具和理解特定的Spark術語。主要內容用Java編寫的Spark應用程序Spark應用架構提取文件、數(shù)據(jù)庫、數(shù)據(jù)流和Elasticsearch的數(shù)據(jù)使用Spark SQL查詢分布式數(shù)據(jù)集閱讀門檻《Spark實戰(zhàn)(第2版)》讀者不需要具備有關Spark、Scala或Hadoop的經驗。