注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡家庭與辦公軟件數(shù)據(jù)科學概論

數(shù)據(jù)科學概論

數(shù)據(jù)科學概論

定 價:¥68.00

作 者: 覃雄派 著
出版社: 中國人民大學出版社
叢編項: 數(shù)據(jù)科學與大數(shù)據(jù)技術叢書
標 簽: 暫缺

ISBN: 9787300252926 出版時間: 2018-01-01 包裝: 平裝
開本: 16開 頁數(shù): 576 字數(shù):  

內容簡介

  數(shù)據(jù)科學是一門正在興起的學科,國內外各個大學開始開設數(shù)據(jù)科學課程或類似課程,并且編寫配套教材。我們的教材在內容上按照四大模塊進行組織,分別是數(shù)據(jù)科學基礎、數(shù)據(jù)以及數(shù)據(jù)上的計算(分析)、數(shù)據(jù)處理基礎設施/平臺和工具、以及大數(shù)據(jù)的案例和實踐。我們認為這樣的組織,使得內容體系相對完整。

作者簡介

  覃雄派(1971?),男,博士,中國人民大學信息學院講師、碩士生導師,目前主要從事高性能數(shù)據(jù)庫、大數(shù)據(jù)分析、信息檢索等方面的研究工作,主持1項國家自然科學基金面上項目,參與多項國家“863”計劃、“973”計劃及國家自然科學基金項目,在國內外期刊和會議上發(fā)表論文20余篇。陳躍國(1978?),男,博士,中國人民大學信息學院副教授、博士生導師,中國計算機學會高級會員,數(shù)據(jù)庫專家委員會委員,大數(shù)據(jù)專家委員會通信委員,F(xiàn)rontiersofComputerScience青年編委,主要研究方向為大數(shù)據(jù)分析系統(tǒng)和語義搜索。主持國家自然科學基金項目2項,廣東省科技應用重大專項1項,參與多項國家核高基(核心電子器件、高端通用芯片及基礎軟件產(chǎn)品)、“973”計劃、“863”計劃項目,近年來在SIGMOD、SIGIR、ICDE、AAAI、IEEETKDE、WWW等國際重要期刊和會議上發(fā)表論文30余篇杜小勇(1963?),男,博士,中國人民大學信息學院教授,博士生導師,教育部數(shù)據(jù)工程與知識工程重點實驗室主任,中國計算機學會會士,《大數(shù)據(jù)》期刊編委會副主任。主要研究方向為智能信息檢索、高性能數(shù)據(jù)庫、知識工程。主持和參與多項國家核高基(核心電子器件、高端通用芯片及基礎軟件產(chǎn)品)、“973”計劃、“863”計劃、國家自然科學基金項目,近年來在SIGMOD、VLDB、AAAI、IEEETKDE等國際重要期刊和會議上發(fā)表論文百余篇。

圖書目錄

理論篇//
 
1 數(shù)據(jù)科學概論
1.1 數(shù)據(jù)科學的定義
1.2 數(shù)據(jù)科學的定位
1.2.1 數(shù)據(jù)科學與數(shù)據(jù)庫、大數(shù)據(jù)分析的關系
1.2.2 數(shù)據(jù)科學與基于數(shù)據(jù)的決策的關系
1.3 數(shù)據(jù)科學家
1.3.1 數(shù)據(jù)科學家的技能
1.4 數(shù)據(jù)科學的基本原則(Principle)
1.4.1 原則1:數(shù)據(jù)分析可以劃分成一系列明確的階段
1.4.2 原則2:描述性分析與預測性分析
1.4.3 原則3:實體的相似度
1.4.4 原則4:模型的泛化能力
1.4.5 原則5:分析結果的評估與特定應用場景有關
1.4.6 原則6:相關性不同于因果關系
1.4.7 原則7:通過并行處理提高數(shù)據(jù)處理(分析)速度
1.5 數(shù)據(jù)處理流程:時間維度的縱向視角
1.6 數(shù)據(jù)處理系統(tǒng)的架構:系統(tǒng)維度的計算視角
1.6.1 數(shù)據(jù)處理系統(tǒng)的層次架構
1.6.2 數(shù)據(jù)處理系統(tǒng)的Lambda架構
1.7 數(shù)據(jù)的多樣性:數(shù)據(jù)類型維度的橫向視角
1.8 數(shù)據(jù)價值的挖掘:價值維度的價值提升視角
1.9 思考題
 
2 OLTP與數(shù)據(jù)服務
2.1 面向OLTP應用的RDBMS數(shù)據(jù)庫技術
2.1.1 關系數(shù)據(jù)庫技術與SQL查詢語言
2.1.2 利用索引加快數(shù)據(jù)訪問
2.1.3 數(shù)據(jù)庫的事務處理、恢復技術與安全保證
2.1.4 并行數(shù)據(jù)庫與分布式數(shù)據(jù)庫
2.2 面向數(shù)據(jù)服務的NoSQL數(shù)據(jù)庫技術
2.2.1 NoSQL數(shù)據(jù)庫技術
2.2.2 CAP理論
2.2.3 Key-Value數(shù)據(jù)庫
2.2.4 Column Family數(shù)據(jù)庫
2.2.5 Document數(shù)據(jù)庫
2.2.6 Graph數(shù)據(jù)庫
2.3 NewSQL數(shù)據(jù)庫技術
2.3.1 VoltDB數(shù)據(jù)庫
2.3.2 Google Spanner數(shù)據(jù)庫
2.4 思考題
 
3 OLAP與結構化數(shù)據(jù)分析
3.1 聯(lián)機分析處理(OLAP)與結構化數(shù)據(jù)分析
3.1.1 從操作型的業(yè)務數(shù)據(jù)庫向數(shù)據(jù)倉庫抽取、轉換和裝載數(shù)據(jù)
3.1.2 數(shù)據(jù)倉庫與星型模型
3.1.3 聯(lián)機分析處理OLAP
3.1.4 三種類型的OLAP系統(tǒng)
3.2 高性能OLAP系統(tǒng)的關鍵技術
3.2.1 列存儲技術
3.2.2 位圖索引技術
3.2.3 內存數(shù)據(jù)庫技術
3.2.4 MPP并行數(shù)據(jù)庫
3.3 結構化數(shù)據(jù)分析工具介紹
3.3.1 MPP(Shared-Nothing)數(shù)據(jù)庫、基于列存儲的關系數(shù)據(jù)庫
3.3.2 SQL on Hadoop系統(tǒng)
3.3.3 性能比較
3.4 思考題
 
4 數(shù)據(jù)清洗與數(shù)據(jù)集成
4.1 數(shù)據(jù)抽取、轉換與裝載
4.2 數(shù)據(jù)清洗
4.2.1 數(shù)據(jù)清洗的意義
4.2.2 數(shù)據(jù)異常的不同類型
4.2.3 數(shù)據(jù)質量
4.2.4 數(shù)據(jù)清洗的任務和過程
4.2.5 數(shù)據(jù)清洗的具體方法
4.3 數(shù)據(jù)集成
4.3.1 數(shù)據(jù)集成
4.3.2 數(shù)據(jù)集成需要解決的問題—異構性(Heterogeneity)
4.3.3 數(shù)據(jù)集成的模式
4.3.4 實體解析(Entity Resolution)
4.4 思考題
 
5 數(shù)據(jù)的深度分析(數(shù)據(jù)挖掘、機器學習)
5.1 機器學習與數(shù)據(jù)挖掘簡介
5.2 主流機器學習與數(shù)據(jù)挖掘方法
5.2.1 決策樹
5.2.2 聚類算法K-Means
5.2.3 分類算法支持向量機SVM
5.2.4 關聯(lián)規(guī)則分析(Association Rule Analysis)Apriori算法
5.2.5 EM(Expectation–Maximization)算法
5.2.6 協(xié)同過濾推薦算法(Collaborative Filtering Recommendation)
5.2.7 kNN(k近鄰)算法
5.2.8 樸素Bayes(Naive Bayes)算法
5.2.9 AdaBoost算法
5.2.10 線性回歸、Logistic回歸
5.2.11 神經(jīng)網(wǎng)絡與深度學習(Neural Network and Deep Learning)
5.2.12 特征選擇
5.3 主流數(shù)據(jù)深度分析工具
5.3.1 Mahout系統(tǒng)
5.3.2 Spark MLlib系統(tǒng)
5.3.3 Weka系統(tǒng)
5.3.4 R系統(tǒng)與語言
5.3.5 SPSS與Matlab
5.3.6 深度學習工具TensorFlow, Caffe
5.4 思考題
 
6 流數(shù)據(jù)處理
6.1 流數(shù)據(jù)處理應用
6.2 流式處理(Stream Processing)和批處理(Batch Processing)的區(qū)別
6.3 流數(shù)據(jù)模型
6.4 流數(shù)據(jù)上的查詢實例
6.5 流數(shù)據(jù)處理系統(tǒng)的查詢處理
6.5.1 內存需求(Memory Requirement)
6.5.2 近似查詢結果(Approximate Query Answering)
6.5.3 滑動窗口(Sliding Window)
6.5.4 查詢數(shù)據(jù)流的歷史數(shù)據(jù)(Referencing Past Data)
6.5.5 多查詢優(yōu)化與查詢計劃的適應性
6.5.6 堵塞操作符(Blocking Operator)
6.5.7 數(shù)據(jù)流里的時間戳(Timestamps in Stream)
6.5.8 批處理(Batch Processing)、采樣(Sampling)、梗概(Synopsis)
6.6 查詢處理的基礎算法
6.6.1 隨機采樣(Random Sample)
6.6.2 梗概技術(Sketch Technique)
6.6.3 直方圖(Histogram)
6.6.4 小波(Wavelet)分析
6.6.5 布隆過濾器(Bloom Filter)
6.6.6 計數(shù)小梗概(Count-Min Sketch)
6.7 流數(shù)據(jù)處理系統(tǒng)
6.7.1 Storm簡介
6.7.2 其它流數(shù)據(jù)處理系統(tǒng)
6.8 思考題
 
7 文本分析
7.1 文本分析的意義
7.2 文本分析的任務和方法
7.2.1 句子切分、分詞、詞性標注、語法分析
7.2.2 文本索引和檢索(Indexing and Search)
7.2.3 文本分類(Text Classification)
7.2.4 文本聚類(Text Clustering)
7.2.5 文檔摘要(Document Summarization)
7.2.6 主題抽取(Topic Theme Extraction)
7.2.7 命名實體識別、概念抽取和關系抽取、事實抽取
7.2.8 情感分析(Sentiment Analysis)
7.2.9 其它文本分析任務與方法
7.3 文本分析可視化
7.3.1 標記云(Tag Cloud,也叫Word Cloud)
7.3.2 詞共現(xiàn)分析與可視化(Co-Word Analysis & Visualization)
7.4 文本分析軟件和工具
7.4.1 NLTK
7.4.2 OPEN NLP
7.4.3 Stanford NLP
7.4.4 LingPipe
7.4.5 GATE
7.4.6 UIMA
7.4.7 Netlytic
7.4.8 WordNet和SentiWordNet
7.5 思考題
 
8 社交網(wǎng)絡分析
8.1 簡介
8.2 社交網(wǎng)絡分析的應用
8.3 社交網(wǎng)絡分析方法
8.3.1 網(wǎng)絡的一些基本屬性
8.3.2 復雜網(wǎng)絡的一些拓撲特性
8.3.3 節(jié)點的中心性(Centrality)
8.3.4 可達性、路徑、短路徑、小生成樹
8.3.5 凝聚子群與社區(qū)檢測
8.3.6 鏈路預測、信息擴散與影響力分析
8.3.7 核心-邊緣分析
8.3.8 位置和角色、子圖查詢、網(wǎng)絡模體
8.4 軟件
8.4.1 Gephi
8.4.2 UCINET
8.4.3 Pajek
8.4.4 NodeXL
8.5 思考題
 
9 語義網(wǎng)與知識圖譜
9.1 語義網(wǎng)(Semantic Web)的基本概念
9.2 語義網(wǎng)體系結構
9.3 語義網(wǎng)的關鍵技術
9.3.1 XML(Extensible Markup Language, 擴展標記語言)
9.3.2 RDF(Resource Description Framework, 資源描述框架)
9.3.3 OWL與本體Ontology
9.4 知識庫與知識圖譜
9.4.1 知識庫與Linked Open Data
9.4.2 知識圖譜
9.4.3 知識圖譜的創(chuàng)建
9.4.4 知識圖譜的挖掘
9.5 思考題
 
10 數(shù)據(jù)可視化、可視分析、與探索式數(shù)據(jù)分析
10.1 什么是可視化
10.2 可視化的強大威力
10.3 可視化的一般過程
10.4 科學可視化與信息可視化
10.5 數(shù)據(jù)可視化的原則
10.6 可視化實例
10.6.1 散點圖與直方圖
10.6.2 線圖
10.6.3 柱狀圖與餅圖
10.6.4 解剖圖、切片、等值面
10.6.5 表現(xiàn)層次關系:樹、圓錐樹、Tree Map、信息立方體
10.6.6 地圖(Map)和地球(Earth)
10.6.7 社交網(wǎng)絡(Social network)
10.6.8 堆疊的河流(Stacked River)
10.6.9 多維數(shù)據(jù)的展示
10.6.10 特色可視化應用
10.7 可視化的挑戰(zhàn)和趨勢
10.8 可視分析技術
10.9 探索式數(shù)據(jù)分析
10.10 探索式數(shù)據(jù)分析的作用
10.11 探索式數(shù)據(jù)分析的基本方法
10.11.1 了解變量的分布情況、計算統(tǒng)計值
10.11.2 了解變量之間的關系
10.11.3 了解因子變量的相對重要性
10.11.4 在探索式數(shù)據(jù)分析中對高維數(shù)據(jù)進行降維
10.11.5 探索式數(shù)據(jù)分析案例
10.12 可視化工具介紹
10.12.1 D3.js
10.12.2 Processing.js
10.12.3 Protovis
10.12.4 Prefuse
10.12.5 Matplotlib
10.13 思考題
 
應用篇 //
 
11 云計算平臺
11.1 云計算的概念與特點
11.1.1 云計算的概念
11.1.2 云計算的特點
11.1.3 云計算與并行計算、分布式計算、集群計算、網(wǎng)格計算的區(qū)別與聯(lián)系
11.2 云計算與大數(shù)據(jù)處理的關系
11.3 云計算類型與典型系統(tǒng)
11.4 虛擬化技術與數(shù)據(jù)中心
11.4.1 服務器虛擬化
11.4.2 存儲虛擬化
11.4.3 網(wǎng)絡虛擬化
11.4.4 數(shù)據(jù)中心
11.5 主流產(chǎn)品與特點
11.5.1 VMWare
11.5.2 Hyper-V
11.5.3 KVM
11.5.4 XEN
11.6 Openstack開源虛擬化平臺
11.7 主流廠商的云計算產(chǎn)品和服務
11.7.1 Amazon
11.7.2 微軟
11.7.3 Google
11.7.4 阿里云
11.8 思考題
 
12 Hadoop及其生態(tài)系統(tǒng)
12.1 Hadoop簡介
12.2 Hadoop分布式文件系統(tǒng)
12.2.1 寫文件
12.2.2 讀文件
12.2.3 Secondary NameNode介紹
12.3 MapReduce工作原理
12.3.1 MapReduce執(zhí)行引擎
12.3.2 MapReduce計算模型
12.3.3 Hadoop 1.0的應用
12.4 Hadoop生態(tài)系統(tǒng)
12.4.1 Hive原理
12.5 Hadoop2.0版(YARN)
12.5.1 Hadoop 1.0的優(yōu)勢和局限
12.5.2 業(yè)務需求推動持續(xù)創(chuàng)新
12.5.3 YARN原理
12.5.4 YARN的優(yōu)勢
12.6 Hadoop 2.0上的交互式查詢引擎Hive on Tez
12.6.1 Tez原理
12.6.2 把數(shù)據(jù)處理邏輯建模成一個DAG連接起來的任務
12.6.3 Tez(DAG Job)相對于MapReduce(Job)的優(yōu)勢
12.7 Hadoop平臺上的列存儲技術
12.7.1 列存儲的優(yōu)勢
12.7.2 RCFile
12.7.3 ORC存儲格式
12.7.4 Parquet文件格式
12.8 思考題
 
13 Spark及其生態(tài)系統(tǒng)
13.1 簡介
13.1.1 Spark軟件架構
13.1.2 Spark的主要優(yōu)勢
13.2 Hadoop的局限和Spark的誕生
13.3 Spark特性總結
13.4 Spark生態(tài)系統(tǒng)
13.5 RDD及其處理
13.5.1 DAG、寬依賴與窄依賴
13.5.2 DAG的調度執(zhí)行
13.5.3 共享變量(Shared Variable)
13.6 Spark SQL
13.6.1 SparkSQL應用程序
13.7 Spark應用案例
13.7.1 Spark的其它應用案例
13.8 總結
13.9 思考題
 
14 Python與數(shù)據(jù)科學
14.1 Python概述
14.2 Python開發(fā)環(huán)境配置(Setup)
14.3 通過一系列實例學習Python(Learn Python Step by Step with Examples)
14.3.1 變量/常量/注釋
14.3.2 數(shù)據(jù)類型
14.3.3 運算符及其優(yōu)先級、表達式
14.3.4 順序、分支、循環(huán)程序結構
14.3.5 函數(shù)、庫函數(shù)的使用
14.3.6 類和對象、對象的構造、對象摧毀、封裝和繼承、重寫
14.3.7 異常處理
14.3.8 正則表達式
14.3.9 文件I/O(輸入輸出)
14.4 第三方庫和實例(3th Party Libraries and Examples)
14.4.1 Pandas介紹與實例
14.4.2 scikit-learn介紹與實例
14.4.3 深度學習庫Keras(基于Tensorflow、Theano)
14.4.4 Matplotlib 介紹與實例
14.4.5 NetworkX介紹與實例
14.4.6 NLTK介紹與實例
14.5 思考題
 
15 評測基準
15.1 評測基準概述
15.1.1 評測基準的目的和作用
15.1.2 評測基準的構成
15.1.3 評測基準的分類
15.1.4 評測基準的選擇
15.2 功能性評測基準Daytona 100TB Gray Sort
15.3 面向OLTP應用的評測基準
15.3.1 TPC-C標準
15.3.2 TPC-C的數(shù)據(jù)模型
15.3.3 TPC-C的負載
15.3.4 TPC-C的性能指標
15.4 面向OLAP應用的評測基準
15.4.1 TPC-H標準
15.4.2 TPC-H的數(shù)據(jù)模型
15.4.3 TPC-H的負載
15.4.4 3個測試
15.4.5 TPC-H的性能指標
15.4.6 數(shù)據(jù)生成器和查詢負載生成器
15.4.7 TPC-DS簡介
15.5 面向大數(shù)據(jù)應用的評測基準
15.5.1 面向數(shù)據(jù)服務的評測基準 - YCSB
15.5.2 面向大數(shù)據(jù)分析處理的評測基準 - Big Bench和BigDataBench
15.5.3 其它評測基準
15.6 思考題
 
16 數(shù)據(jù)科學案例
16.1 Google流感趨勢預測(Google Flu Trends)
16.2 Target利用數(shù)據(jù)分析預測到一個高中女生的懷孕
16.3 互聯(lián)網(wǎng)輿情監(jiān)控與管理
16.4 投資與信用
16.4.1 大數(shù)據(jù)指數(shù)基金
16.4.2 基于大數(shù)據(jù)的信用評價
16.5 IBM Watson計算機與醫(yī)療
16.6 奧巴馬競選團隊利用大數(shù)據(jù)分析技術,幫助奧巴馬競選連任成功
16.7 數(shù)據(jù)科學與科學研究
16.8 奧斯卡大獎預測、總統(tǒng)選舉預測、世界杯預測
16.9 用戶畫像與精準廣告
16.10 自動短文評分(Automatic Essay Scoring)
16.11 數(shù)據(jù)產(chǎn)品(Data Product)
16.12 其它數(shù)據(jù)科學案例
16.13 思考題
 
17 數(shù)據(jù)科學實踐
17.1 概述
17.1.1 算法交易和量化交易
17.1.2 量化交易系統(tǒng)的四大模塊
17.1.3 交易策略的研發(fā)、測試、上線過程
17.1.4 量化交易系統(tǒng)的評價指標
17.2 工具和平臺介紹
17.2.1 Zipline函數(shù)庫介紹
17.2.2 Quantopian介紹
17.3 基于規(guī)則的交易策略
17.3.1 移動平均交叉交易策略
17.3.2 均值回歸交易策略
17.4 基于機器學習的交易策略
17.4.1 基于Random Forest分類器的交易策略(分類)
17.4.2 基于SVM回歸模型的交易策略(回歸)
17.5 關于若干專題的討論
17.5.1 股票價格預測的基礎數(shù)據(jù)
17.5.2 特征選擇(Feature Selection)
17.5.3 模型的組合(Model Combination)
17.5.4 離線的模型訓練(Offline Model Training)
17.5.5 使用大數(shù)據(jù)處理引擎處理大數(shù)據(jù)(using of Big Data Engine)
17.5.6 在交易模型中集成情感分析結果(Integrating Sentiment Analysis into Trading Model)
17.6 思考題
 
18 附錄
18.1 參考文獻
18.2 專有名詞

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號