中文字幕人妻少妇av,日本成片区免费,色欲色香天天天综合无码www

內容簡介

　　這套書以大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘和機器學習為重點，全面介紹了實踐中行之有效的數(shù)據(jù)挖掘知識和數(shù)據(jù)處理算法?！稊?shù)據(jù)挖掘導論（完整版）》涵蓋五個主題：數(shù)據(jù)、分類、關聯(lián)分析、聚類和異常檢測。除異常檢測外，每個主題都包含兩章：前面一章講述基本概念、代表性算法和評估技術，后面一章較深入地討論高級概念和算法，目的是使讀者在透徹地理解數(shù)據(jù)挖掘基礎的同時，還能了解更多重要的高級主題?！洞髷?shù)據(jù)：互聯(lián)網大規(guī)模數(shù)據(jù)挖掘與分布式處理（第2版）》源自斯坦福大學“海量數(shù)據(jù)挖掘”（CS246： Mining Massive Datasets）課程，主要關注極大規(guī)模數(shù)據(jù)的挖掘。主要內容包括分布式文件系統(tǒng)、相似性搜索、搜索引擎技術、頻繁項集挖掘、聚類算法、廣告管理及推薦系統(tǒng)。兩本書都提供了大量示例、圖表和習題。

作者簡介

　　Pang-Ning Tan，現(xiàn)為密歇根州立大學計算機與工程系助理教授，主要教授數(shù)據(jù)挖掘、數(shù)據(jù)庫系統(tǒng)等課程。此前，他曾是明尼蘇達大學美國陸軍高性能計算研究中心副研究員（2002-2003）。Michael Steinbach，明尼蘇達大學計算機與工程系研究員，在讀博士。

圖書目錄

第1章緒論1
1.1什么是數(shù)據(jù)挖掘2
1.2數(shù)據(jù)挖掘要解決的問題2
1.3數(shù)據(jù)挖掘的起源3
1.4數(shù)據(jù)挖掘任務4
1.5本書的內容與組織7
文獻注釋7
參考文獻8
習題10
第2章數(shù)據(jù)13
2.1數(shù)據(jù)類型14
2.1.1屬性與度量15
2.1.2數(shù)據(jù)集的類型18
2.2數(shù)據(jù)質量22
2.2.1測量和數(shù)據(jù)收集問題22
2.2.2關于應用的問題26
2.3數(shù)據(jù)預處理27
2.3.1聚集27
2.3.2抽樣28
2.3.3維歸約30
2.3.4特征子集選擇31
2.3.5特征創(chuàng)建33
2.3.6離散化和二元化34
2.3.7變量變換38
2.4相似性和相異性的度量38
2.4.1基礎39
2.4.2簡單屬性之間的相似度和相異度40
2.4.3數(shù)據(jù)對象之間的相異度41
2.4.4數(shù)據(jù)對象之間的相似度43
2.4.5鄰近性度量的例子43
2.4.6鄰近度計算問題48
2.4.7選取正確的鄰近性度量50
文獻注釋50
參考文獻52
習題53
第3章探索數(shù)據(jù)59
3.1鳶尾花數(shù)據(jù)集59
3.2匯總統(tǒng)計60
3.2.1頻率和眾數(shù)60
3.2.2百分位數(shù)61
3.2.3位置度量：均值和中位數(shù)61
3.2.4散布度量：極差和方差62
3.2.5多元匯總統(tǒng)計63
3.2.6匯總數(shù)據(jù)的其他方法64
3.3可視化64
3.3.1可視化的動機64
3.3.2一般概念65
3.3.3技術67
3.3.4可視化高維數(shù)據(jù)75
3.3.5注意事項79
3.4OLAP和多維數(shù)據(jù)分析79
3.4.1用多維數(shù)組表示鳶尾花數(shù)據(jù)80
3.4.2多維數(shù)據(jù)：一般情況81
3.4.3分析多維數(shù)據(jù)82
3.4.4關于多維數(shù)據(jù)分析的最后評述84
文獻注釋84
參考文獻85
習題86
第4章分類：基本概念、決策樹與模型評估89
4.1預備知識89
4.2解決分類問題的一般方法90
4.3決策樹歸納92
4.3.1決策樹的工作原理92
4.3.2如何建立決策樹93
4.3.3表示屬性測試條件的方法95
4.3.4選擇最佳劃分的度量96
4.3.5決策樹歸納算法101
4.3.6例子：Web機器人檢測102
4.3.7決策樹歸納的特點103
4.4模型的過分擬合106
4.4.1噪聲導致的過分擬合107
4.4.2缺乏代表性樣本導致的過分擬合109
4.4.3過分擬合與多重比較過程109
4.4.4泛化誤差估計110
4.4.5處理決策樹歸納中的過分擬合113
4.5評估分類器的性能114
4.5.1保持方法114
4.5.2隨機二次抽樣115
4.5.3交叉驗證115
4.5.4自助法115
4.6比較分類器的方法116
4.6.1估計準確度的置信區(qū)間116
4.6.2比較兩個模型的性能117
4.6.3比較兩種分類法的性能118
文獻注釋118
參考文獻120
習題122
第5章分類：其他技術127
5.1基于規(guī)則的分類器127
5.1.1基于規(guī)則的分類器的工作原理128
5.1.2規(guī)則的排序方案129
5.1.3如何建立基于規(guī)則的分類器130
5.1.4規(guī)則提取的直接方法130
5.1.5規(guī)則提取的間接方法135
5.1.6基于規(guī)則的分類器的特征136
5.2最近鄰分類器137
5.2.1算法138
5.2.2最近鄰分類器的特征138
5.3貝葉斯分類器139
5.3.1貝葉斯定理139
5.3.2貝葉斯定理在分類中的應用140
5.3.3樸素貝葉斯分類器141
5.3.4貝葉斯誤差率145
5.3.5貝葉斯信念網絡147
5.4人工神經網絡150
5.4.1感知器151
5.4.2多層人工神經網絡153
5.4.3人工神經網絡的特點155
5.5支持向量機156
5.5.1最大邊緣超平面156
5.5.2線性支持向量機：可分情況157
5.5.3線性支持向量機：不可分情況162
5.5.4非線性支持向量機164
5.5.5支持向量機的特征168
5.6組合方法168
5.6.1組合方法的基本原理168
5.6.2構建組合分類器的方法169
5.6.3偏倚—方差分解171
5.6.4裝袋173
5.6.5提升175
5.6.6隨機森林178
5.6.7組合方法的實驗比較179
5.7不平衡類問題180
5.7.1可選度量180
5.7.2接受者操作特征曲線182
5.7.3代價敏感學習184
5.7.4基于抽樣的方法186
5.8多類問題187
文獻注釋189
參考文獻190
習題193
第6章關聯(lián)分析：基本概念和算法201
6.1問題定義202
6.2頻繁項集的產生204
6.2.1先驗原理205
6.2.2Apriori算法的頻繁項集產生206
6.2.3　候選的產生與剪枝208
6.2.4支持度計數(shù)210
6.2.5計算復雜度213
6.3規(guī)則產生215
6.3.1基于置信度的剪枝215
6.3.2Apriori算法中規(guī)則的產生215
6.3.3例：美國國會投票記錄217
6.4頻繁項集的緊湊表示217
6.4.1極大頻繁項集217
6.4.2閉頻繁項集219
6.5產生頻繁項集的其他方法221
6.6FP增長算法223
6.6.1FP樹表示法224
6.6.2FP增長算法的頻繁項集產生225
6.7關聯(lián)模式的評估228
6.7.1興趣度的客觀度量228
6.7.2多個二元變量的度量235
6.7.3辛普森悖論236
6.8傾斜支持度分布的影響237
文獻注釋240
參考文獻244
習題250
第7章關聯(lián)分析：高級概念259
7.1處理分類屬性259
7.2處理連續(xù)屬性261
7.2.1基于離散化的方法261
7.2.2基于統(tǒng)計學的方法263
7.2.3非離散化方法265
7.3處理概念分層266
7.4序列模式267
7.4.1問題描述267
7.4.2序列模式發(fā)現(xiàn)269
7.4.3時限約束271
7.4.4可選計數(shù)方案274
7.5子圖模式275
7.5.1圖與子圖276
7.5.2頻繁子圖挖掘277
7.5.3類Apriori方法278
7.5.4候選產生279
7.5.5候選剪枝282
7.5.6支持度計數(shù)285
7.6非頻繁模式285
7.6.1負模式285
7.6.2負相關模式286
7.6.3非頻繁模式、負模式和負相關模式比較287
7.6.4挖掘有趣的非頻繁模式的技術288
7.6.5基于挖掘負模式的技術288
7.6.6基于支持度期望的技術290
文獻注釋292
參考文獻293
習題295
第8章聚類分析：基本概念和算法305
8.1概述306
8.1.1什么是聚類分析306
8.1.2不同的聚類類型307
8.1.3不同的簇類型308
8.2K均值310
8.2.1基本K均值算法310
8.2.2K均值：附加的問題315
8.2.3二分K均值316
8.2.4K均值和不同的簇類型317
8.2.5優(yōu)點與缺點318
8.2.6K均值作為優(yōu)化問題319
8.3凝聚層次聚類320
8.3.1基本凝聚層次聚類算法321
8.3.2特殊技術322
8.3.3簇鄰近度的Lance-Williams公式325
8.3.4層次聚類的主要問題326
8.3.5優(yōu)點與缺點327
8.4DBSCAN327
8.4.1傳統(tǒng)的密度：基于中心的方法327
8.4.2DBSCAN算法328
8.4.3優(yōu)點與缺點329
8.5簇評估330
8.5.1概述332
8.5.2非監(jiān)督簇評估：使用凝聚度和分離度332
8.5.3非監(jiān)督簇評估：使用鄰近度矩陣336
8.5.4層次聚類的非監(jiān)督評估338
8.5.5確定正確的簇個數(shù)339
8.5.6聚類趨勢339
8.5.7簇有效性的監(jiān)督度量340
8.5.8評估簇有效性度量的顯著性343
文獻注釋344
參考文獻345
習題347
第9章聚類分析：其他問題與算法355
9.1數(shù)據(jù)、簇和聚類算法的特性355
9.1.1例子：比較K均值和DBSCAN355
9.1.2數(shù)據(jù)特性356
9.1.3簇特性357
9.1.4聚類算法的一般特性358
9.2基于原型的聚類359
9.2.1模糊聚類359
9.2.2使用混合模型的聚類362
9.2.3自組織映射369
9.3基于密度的聚類372
9.3.1基于網格的聚類372
9.3.2子空間聚類374
9.3.3DENCLUE：基于密度聚類的一種基于核的方案377
9.4基于圖的聚類379
9.4.1稀疏化379
9.4.2最小生成樹聚類380
9.4.3OPOSSUM：使用METIS的稀疏相似度最優(yōu)劃分381
9.4.4Chameleon：使用動態(tài)建模的層次聚類381
9.4.5共享最近鄰相似度385
9.4.6Jarvis-Patrick聚類算法387
9.4.7SNN密度388
9.4.8基于SNN密度的聚類389
9.5可伸縮的聚類算法390
9.5.1可伸縮：一般問題和方法391
9.5.2BIRCH392
9.5.3CURE393
9.6使用哪種聚類算法395
文獻注釋397
參考文獻398
習題400
第10章異常檢測403
10.1預備知識404
10.1.1異常的成因404
10.1.2異常檢測方法404
10.1.3類標號的使用405
10.1.4問題405
10.2統(tǒng)計方法406
10.2.1檢測一元正態(tài)分布中的離群點407
10.2.2多元正態(tài)分布的離群點408
10.2.3異常檢測的混合模型方法410
10.2.4優(yōu)點與缺點411
10.3基于鄰近度的離群點檢測411
10.4基于密度的離群點檢測412
10.4.1使用相對密度的離群點檢測413
10.4.2優(yōu)點與缺點414
10.5基于聚類的技術414
10.5.1評估對象屬于簇的程度415
10.5.2離群點對初始聚類的影響416
10.5.3使用簇的個數(shù)416
10.5.4優(yōu)點與缺點416
文獻注釋417
參考文獻418
習題420
附錄A線性代數(shù)423
附錄B維歸約433
附錄C概率統(tǒng)計445
附錄D回歸451
附錄E優(yōu)化457