本書以當前流行的大數(shù)據(jù)采集技術和清洗技術為主,從大數(shù)據(jù)采集技術特性和實現(xiàn)入手,對其基本架構、實現(xiàn)原理、應用部署等方面進行了全面翔實的介紹。本書主要內容包括:大數(shù)據(jù)采集技術與應用概述、大數(shù)據(jù)同步技術——Datax、大數(shù)據(jù)清洗技術——Kettle、大數(shù)據(jù)日志采集技術——Logstash、大數(shù)據(jù)實時采集技術——Kafka、態(tài)勢感知——輿情熱點大數(shù)據(jù)平臺中的數(shù)據(jù)采集技術。 本書可作為高等學校應用型本科大數(shù)據(jù)、云計算、人工智能等相關專業(yè)的教材,也可作為高職高專大數(shù)據(jù)、云計算、人工智能等相關專業(yè)的教材,同時也適合希望深入了解大數(shù)據(jù)采集技術的開發(fā)人員學習使用。