注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書(shū)科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)數(shù)據(jù)庫(kù)大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理 + 數(shù)據(jù)挖掘?qū)д摚ㄌ籽b共2冊(cè))

大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理 + 數(shù)據(jù)挖掘?qū)д摚ㄌ籽b共2冊(cè))

大數(shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理 + 數(shù)據(jù)挖掘?qū)д摚ㄌ籽b共2冊(cè))

定 價(jià):¥148.00

作 者: (美)Pang-Ning Tan,(美)Michael Steinbach 等
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購(gòu)買這本書(shū)可以去


ISBN: 9787115002365 出版時(shí)間: 2016-05-01 包裝:
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 868 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  這套書(shū)以大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)為重點(diǎn),全面介紹了實(shí)踐中行之有效的數(shù)據(jù)挖掘知識(shí)和數(shù)據(jù)處理算法?!稊?shù)據(jù)挖掘?qū)д摚ㄍ暾妫泛w五個(gè)主題:數(shù)據(jù)、分類、關(guān)聯(lián)分析、聚類和異常檢測(cè)。除異常檢測(cè)外,每個(gè)主題都包含兩章:前面一章講述基本概念、代表性算法和評(píng)估技術(shù),后面一章較深入地討論高級(jí)概念和算法,目的是使讀者在透徹地理解數(shù)據(jù)挖掘基礎(chǔ)的同時(shí),還能了解更多重要的高級(jí)主題?!洞髷?shù)據(jù):互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘與分布式處理(第2版)》 源自斯坦福大學(xué)“海量數(shù)據(jù)挖掘”(CS246: Mining Massive Datasets)課程,主要關(guān)注極大規(guī)模數(shù)據(jù)的挖掘。主要內(nèi)容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術(shù)、頻繁項(xiàng)集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。兩本書(shū)都提供了大量示例、圖表和習(xí)題。

作者簡(jiǎn)介

  Pang-Ning Tan,現(xiàn)為密歇根州立大學(xué)計(jì)算機(jī)與工程系助理教授,主要教授數(shù)據(jù)挖掘、數(shù)據(jù)庫(kù)系統(tǒng)等課程。此前,他曾是明尼蘇達(dá)大學(xué)美國(guó)陸軍高性能計(jì)算研究中心副研究員(2002-2003)。Michael Steinbach,明尼蘇達(dá)大學(xué)計(jì)算機(jī)與工程系研究員,在讀博士。

圖書(shū)目錄

第1章緒論1
1.1什么是數(shù)據(jù)挖掘2
1.2數(shù)據(jù)挖掘要解決的問(wèn)題2
1.3數(shù)據(jù)挖掘的起源3
1.4數(shù)據(jù)挖掘任務(wù)4
1.5本書(shū)的內(nèi)容與組織7
文獻(xiàn)注釋7
參考文獻(xiàn)8
習(xí)題10
第2章數(shù)據(jù)13
2.1數(shù)據(jù)類型14
2.1.1屬性與度量15
2.1.2數(shù)據(jù)集的類型18
2.2數(shù)據(jù)質(zhì)量22
2.2.1測(cè)量和數(shù)據(jù)收集問(wèn)題22
2.2.2關(guān)于應(yīng)用的問(wèn)題26
2.3數(shù)據(jù)預(yù)處理27
2.3.1聚集27
2.3.2抽樣28
2.3.3維歸約30
2.3.4特征子集選擇31
2.3.5特征創(chuàng)建33
2.3.6離散化和二元化34
2.3.7變量變換38
2.4相似性和相異性的度量38
2.4.1基礎(chǔ)39
2.4.2簡(jiǎn)單屬性之間的相似度和相異度40
2.4.3數(shù)據(jù)對(duì)象之間的相異度41
2.4.4數(shù)據(jù)對(duì)象之間的相似度43
2.4.5鄰近性度量的例子43
2.4.6鄰近度計(jì)算問(wèn)題48
2.4.7選取正確的鄰近性度量50
文獻(xiàn)注釋50
參考文獻(xiàn)52
習(xí)題53
第3章探索數(shù)據(jù)59
3.1鳶尾花數(shù)據(jù)集59
3.2匯總統(tǒng)計(jì)60
3.2.1頻率和眾數(shù)60
3.2.2百分位數(shù)61
3.2.3位置度量:均值和中位數(shù)61
3.2.4散布度量:極差和方差62
3.2.5多元匯總統(tǒng)計(jì)63
3.2.6匯總數(shù)據(jù)的其他方法64
3.3可視化64
3.3.1可視化的動(dòng)機(jī)64
3.3.2一般概念65
3.3.3技術(shù)67
3.3.4可視化高維數(shù)據(jù)75
3.3.5注意事項(xiàng)79
3.4OLAP和多維數(shù)據(jù)分析79
3.4.1用多維數(shù)組表示鳶尾花數(shù)據(jù)80
3.4.2多維數(shù)據(jù):一般情況81
3.4.3分析多維數(shù)據(jù)82
3.4.4關(guān)于多維數(shù)據(jù)分析的最后評(píng)述84
文獻(xiàn)注釋84
參考文獻(xiàn)85
習(xí)題86
第4章分類:基本概念、決策樹(shù)與模型評(píng)估89
4.1預(yù)備知識(shí)89
4.2解決分類問(wèn)題的一般方法90
4.3決策樹(shù)歸納92
4.3.1決策樹(shù)的工作原理92
4.3.2如何建立決策樹(shù)93
4.3.3表示屬性測(cè)試條件的方法95
4.3.4選擇最佳劃分的度量96
4.3.5決策樹(shù)歸納算法101
4.3.6例子:Web機(jī)器人檢測(cè)102
4.3.7決策樹(shù)歸納的特點(diǎn)103
4.4模型的過(guò)分?jǐn)M合106
4.4.1噪聲導(dǎo)致的過(guò)分?jǐn)M合107
4.4.2缺乏代表性樣本導(dǎo)致的過(guò)分?jǐn)M合109
4.4.3過(guò)分?jǐn)M合與多重比較過(guò)程109
4.4.4泛化誤差估計(jì)110
4.4.5處理決策樹(shù)歸納中的過(guò)分?jǐn)M合113
4.5評(píng)估分類器的性能114
4.5.1保持方法114
4.5.2隨機(jī)二次抽樣115
4.5.3交叉驗(yàn)證115
4.5.4自助法115
4.6比較分類器的方法116
4.6.1估計(jì)準(zhǔn)確度的置信區(qū)間116
4.6.2比較兩個(gè)模型的性能117
4.6.3比較兩種分類法的性能118
文獻(xiàn)注釋118
參考文獻(xiàn)120
習(xí)題122
第5章分類:其他技術(shù)127
5.1基于規(guī)則的分類器127
5.1.1基于規(guī)則的分類器的工作原理128
5.1.2規(guī)則的排序方案129
5.1.3如何建立基于規(guī)則的分類器130
5.1.4規(guī)則提取的直接方法130
5.1.5規(guī)則提取的間接方法135
5.1.6基于規(guī)則的分類器的特征136
5.2最近鄰分類器137
5.2.1算法138
5.2.2最近鄰分類器的特征138
5.3貝葉斯分類器139
5.3.1貝葉斯定理139
5.3.2貝葉斯定理在分類中的應(yīng)用140
5.3.3樸素貝葉斯分類器141
5.3.4貝葉斯誤差率145
5.3.5貝葉斯信念網(wǎng)絡(luò)147
5.4人工神經(jīng)網(wǎng)絡(luò)150
5.4.1感知器151
5.4.2多層人工神經(jīng)網(wǎng)絡(luò)153
5.4.3人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)155
5.5支持向量機(jī)156
5.5.1最大邊緣超平面156
5.5.2線性支持向量機(jī):可分情況157
5.5.3線性支持向量機(jī):不可分情況162
5.5.4非線性支持向量機(jī)164
5.5.5支持向量機(jī)的特征168
5.6組合方法168
5.6.1組合方法的基本原理168
5.6.2構(gòu)建組合分類器的方法169
5.6.3偏倚—方差分解171
5.6.4裝袋173
5.6.5提升175
5.6.6隨機(jī)森林178
5.6.7組合方法的實(shí)驗(yàn)比較179
5.7不平衡類問(wèn)題180
5.7.1可選度量180
5.7.2接受者操作特征曲線182
5.7.3代價(jià)敏感學(xué)習(xí)184
5.7.4基于抽樣的方法186
5.8多類問(wèn)題187
文獻(xiàn)注釋189
參考文獻(xiàn)190
習(xí)題193
第6章關(guān)聯(lián)分析:基本概念和算法201
6.1問(wèn)題定義202
6.2頻繁項(xiàng)集的產(chǎn)生204
6.2.1先驗(yàn)原理205
6.2.2Apriori算法的頻繁項(xiàng)集產(chǎn)生206
6.2.3 候選的產(chǎn)生與剪枝208
6.2.4支持度計(jì)數(shù)210
6.2.5計(jì)算復(fù)雜度213
6.3規(guī)則產(chǎn)生215
6.3.1基于置信度的剪枝215
6.3.2Apriori算法中規(guī)則的產(chǎn)生215
6.3.3例:美國(guó)國(guó)會(huì)投票記錄217
6.4頻繁項(xiàng)集的緊湊表示217
6.4.1極大頻繁項(xiàng)集217
6.4.2閉頻繁項(xiàng)集219
6.5產(chǎn)生頻繁項(xiàng)集的其他方法221
6.6FP增長(zhǎng)算法223
6.6.1FP樹(shù)表示法224
6.6.2FP增長(zhǎng)算法的頻繁項(xiàng)集產(chǎn)生225
6.7關(guān)聯(lián)模式的評(píng)估228
6.7.1興趣度的客觀度量228
6.7.2多個(gè)二元變量的度量235
6.7.3辛普森悖論236
6.8傾斜支持度分布的影響237
文獻(xiàn)注釋240
參考文獻(xiàn)244
習(xí)題250
第7章關(guān)聯(lián)分析:高級(jí)概念259
7.1處理分類屬性259
7.2處理連續(xù)屬性261
7.2.1基于離散化的方法261
7.2.2基于統(tǒng)計(jì)學(xué)的方法263
7.2.3非離散化方法265
7.3處理概念分層266
7.4序列模式267
7.4.1問(wèn)題描述267
7.4.2序列模式發(fā)現(xiàn)269
7.4.3時(shí)限約束271
7.4.4可選計(jì)數(shù)方案274
7.5子圖模式275
7.5.1圖與子圖276
7.5.2頻繁子圖挖掘277
7.5.3類Apriori方法278
7.5.4候選產(chǎn)生279
7.5.5候選剪枝282
7.5.6支持度計(jì)數(shù)285
7.6非頻繁模式285
7.6.1負(fù)模式285
7.6.2負(fù)相關(guān)模式286
7.6.3非頻繁模式、負(fù)模式和負(fù)相關(guān)模式比較287
7.6.4挖掘有趣的非頻繁模式的技術(shù)288
7.6.5基于挖掘負(fù)模式的技術(shù)288
7.6.6基于支持度期望的技術(shù)290
文獻(xiàn)注釋292
參考文獻(xiàn)293
習(xí)題295
第8章聚類分析:基本概念和算法305
8.1概述306
8.1.1什么是聚類分析306
8.1.2不同的聚類類型307
8.1.3不同的簇類型308
8.2K均值310
8.2.1基本K均值算法310
8.2.2K均值:附加的問(wèn)題315
8.2.3二分K均值316
8.2.4K均值和不同的簇類型317
8.2.5優(yōu)點(diǎn)與缺點(diǎn)318
8.2.6K均值作為優(yōu)化問(wèn)題319
8.3凝聚層次聚類320
8.3.1基本凝聚層次聚類算法321
8.3.2特殊技術(shù)322
8.3.3簇鄰近度的Lance-Williams公式325
8.3.4層次聚類的主要問(wèn)題326
8.3.5優(yōu)點(diǎn)與缺點(diǎn)327
8.4DBSCAN327
8.4.1傳統(tǒng)的密度:基于中心的方法327
8.4.2DBSCAN算法328
8.4.3優(yōu)點(diǎn)與缺點(diǎn)329
8.5簇評(píng)估330
8.5.1概述332
8.5.2非監(jiān)督簇評(píng)估:使用凝聚度和分離度332
8.5.3非監(jiān)督簇評(píng)估:使用鄰近度矩陣336
8.5.4層次聚類的非監(jiān)督評(píng)估338
8.5.5確定正確的簇個(gè)數(shù)339
8.5.6聚類趨勢(shì)339
8.5.7簇有效性的監(jiān)督度量340
8.5.8評(píng)估簇有效性度量的顯著性343
文獻(xiàn)注釋344
參考文獻(xiàn)345
習(xí)題347
第9章聚類分析:其他問(wèn)題與算法355
9.1數(shù)據(jù)、簇和聚類算法的特性355
9.1.1例子:比較K均值和DBSCAN355
9.1.2數(shù)據(jù)特性356
9.1.3簇特性357
9.1.4聚類算法的一般特性358
9.2基于原型的聚類359
9.2.1模糊聚類359
9.2.2使用混合模型的聚類362
9.2.3自組織映射369
9.3基于密度的聚類372
9.3.1基于網(wǎng)格的聚類372
9.3.2子空間聚類374
9.3.3DENCLUE:基于密度聚類的一種基于核的方案377
9.4基于圖的聚類379
9.4.1稀疏化379
9.4.2最小生成樹(shù)聚類380
9.4.3OPOSSUM:使用METIS的稀疏相似度最優(yōu)劃分381
9.4.4Chameleon:使用動(dòng)態(tài)建模的層次聚類381
9.4.5共享最近鄰相似度385
9.4.6Jarvis-Patrick聚類算法387
9.4.7SNN密度388
9.4.8基于SNN密度的聚類389
9.5可伸縮的聚類算法390
9.5.1可伸縮:一般問(wèn)題和方法391
9.5.2BIRCH392
9.5.3CURE393
9.6使用哪種聚類算法395
文獻(xiàn)注釋397
參考文獻(xiàn)398
習(xí)題400
第10章異常檢測(cè)403
10.1預(yù)備知識(shí)404
10.1.1異常的成因404
10.1.2異常檢測(cè)方法404
10.1.3類標(biāo)號(hào)的使用405
10.1.4問(wèn)題405
10.2統(tǒng)計(jì)方法406
10.2.1檢測(cè)一元正態(tài)分布中的離群點(diǎn)407
10.2.2多元正態(tài)分布的離群點(diǎn)408
10.2.3異常檢測(cè)的混合模型方法410
10.2.4優(yōu)點(diǎn)與缺點(diǎn)411
10.3基于鄰近度的離群點(diǎn)檢測(cè)411
10.4基于密度的離群點(diǎn)檢測(cè)412
10.4.1使用相對(duì)密度的離群點(diǎn)檢測(cè)413
10.4.2優(yōu)點(diǎn)與缺點(diǎn)414
10.5基于聚類的技術(shù)414
10.5.1評(píng)估對(duì)象屬于簇的程度415
10.5.2離群點(diǎn)對(duì)初始聚類的影響416
10.5.3使用簇的個(gè)數(shù)416
10.5.4優(yōu)點(diǎn)與缺點(diǎn)416
文獻(xiàn)注釋417
參考文獻(xiàn)418
習(xí)題420
附錄A線性代數(shù)423
附錄B維歸約433
附錄C概率統(tǒng)計(jì)445
附錄D回歸451
附錄E優(yōu)化457

本目錄推薦

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)