注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計文本數(shù)據(jù)挖掘 基于R語言

文本數(shù)據(jù)挖掘 基于R語言

文本數(shù)據(jù)挖掘 基于R語言

定 價:¥89.00

作 者: 黃天元 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787111677505 出版時間: 2021-05-01 包裝: 平裝
開本: 16開 頁數(shù): 181 字數(shù):  

內(nèi)容簡介

  文本是一種特殊的非結構化數(shù)據(jù),在當今的大數(shù)據(jù)時代,其價值日趨凸顯。本書利用開源而強大的R軟件,對文本數(shù)據(jù)挖掘的概念、技術及技巧進行了系統(tǒng)的介紹。本書共11章,內(nèi)容包括:走進文本數(shù)據(jù)挖掘,R語言快速入門,字符串的基本處理,用好正則表達式,導入各類文本數(shù)據(jù),對各類文本數(shù)據(jù)進行預處理,文本特征提取的4種方法,基于機器學習的文本分類方法,文本情感分析,文本可視化,文本數(shù)據(jù)挖掘項目實踐。本書還提供了豐富的應用案例和程序源代碼引導讀者高效學習。 本書適合對文本數(shù)據(jù)挖掘感興趣的學生、科研人員和數(shù)據(jù)科學從業(yè)者閱讀。同時,本書還可以作為工具書,為需要經(jīng)常進行文本數(shù)據(jù)挖掘的讀者提供快速檢索。

作者簡介

  黃天元,復旦大學理學博士。熱愛數(shù)據(jù)科學與開源工具,致力于利用數(shù)據(jù)科學迅速積累行業(yè)經(jīng)驗優(yōu)勢和科學知識發(fā)現(xiàn),研究領域包括但不限于信息計量、機器學習、數(shù)據(jù)可視化、應用統(tǒng)計建模、知識圖譜等。在CRAN上維護了3個下載量破萬的R包(akc、tidyfst、tidyft),著有《R語言高效數(shù)據(jù)處理指南》一書,并設有知乎專欄“R語言數(shù)據(jù)挖掘”,關注人數(shù)9000+。

圖書目錄

目錄

前言
第1章 走進文本數(shù)據(jù)挖掘1
1.1 什么是文本數(shù)據(jù)挖掘1
1.2 為什么要做文本數(shù)據(jù)挖掘2
1.3 如何進行文本數(shù)據(jù)挖掘2
1.3.1 文本數(shù)據(jù)挖掘的流程2
1.3.2 文本數(shù)據(jù)挖掘的基本任務及方法4
1.4 文本數(shù)據(jù)挖掘軟件工具概覽5
第2章 文本數(shù)據(jù)挖掘利器—R語言7
2.1 開發(fā)環(huán)境配置7
2.1.1 下載并安裝R軟件7
2.1.2 包的管理8
2.1.3 版本升級9
2.1.4 集成開發(fā)環(huán)境10
2.2 R的基本數(shù)據(jù)類型11
2.2.1 數(shù)值型12
2.2.2 邏輯型12
2.2.3 字符型12
2.2.4 因子型13
2.3 R的常用數(shù)據(jù)結構13
2.3.1 向量13
2.3.2 矩陣14
2.3.3 列表14
2.3.4 數(shù)據(jù)框15
2.4 R的基礎編程知識15
2.4.1 賦值15
2.4.2 函數(shù)16
2.4.3 強制類型轉換16
2.4.4 條件判斷17
2.4.5 循環(huán)操作17
2.5 數(shù)據(jù)操作入門19
2.5.1 文件讀寫19
2.5.2 數(shù)據(jù)框的檢視25
2.5.3 單表操作28
2.5.4 多表操作37
2.5.5 缺失值處理42
2.5.6 長寬數(shù)據(jù)轉換46
第3章 從基礎做起1—字符串的基本處理51
3.1 字符串的構造51
3.2 字符串的辨識、計數(shù)與定位52
3.3 字符串的提取53
3.4 字符串的定制化輸出54
3.5 字符串的替換與刪除56
3.6 字符串的拼接與拆分57
3.7 字符串的排序57
第4章 從基礎做起2—用好正則表達式59
4.1 通配符解析59
4.1.1 點運算符(“.”)60
4.1.2 字符集(“[]”)60
4.1.3 否定字符集(“[^ ]”)61
4.1.4 出現(xiàn)0次或更多(“*”)61
4.1.5 出現(xiàn)1次或更多(“+”)62
4.1.6 出現(xiàn)0次或1次(“?”)62
4.1.7 出現(xiàn)次數(shù)范圍限制(“{}”)62
4.1.8 特征標群(“(...)”)62
4.1.9 或運算符(“|”)63
4.1.10 轉義字符(“\\\\”)63
4.1.11 匹配開頭部分(“^”)63
4.1.12 匹配結尾部分(“$”)64
4.2 反向引用64
4.3 簡寫字符集65
4.4 貪婪匹配與惰性匹配66
4.5 零寬斷言67
4.5.1 正先行斷言(“?=...”)67
4.5.2 負先行斷言(“?!...”)68
4.5.3 正后發(fā)斷言(“?
4.5.4 負后發(fā)斷言(“?4.5.5 提取括號中的內(nèi)容68
第5章 步入正題—導入各類文本數(shù)據(jù)70
5.1 readtext包簡介70
5.2 不同格式文本文件的導入70
5.2.1 讀取txt文件71
5.2.2 讀取csv/tsv文件72
5.2.3 讀取json文件74
5.2.4 讀取pdf文件74
5.2.5 讀取Word文件75
5.2.6 讀取html文件75
5.2.7 讀取壓縮包75
5.3 讀入不同編碼格式的文檔76
5.4 文件數(shù)據(jù)結構的轉化77
第6章 更進一步—對各類文本數(shù)據(jù)進行預處理79
6.1 拼寫糾錯79
6.2 文本切分80
6.2.1 段落切分81
6.2.2 句子切分82
6.2.3 詞語切分82
6.2.4 n元切分85
6.2.5 字符切分85
6.3 去除標點86
6.4 去除停用詞86
6.5 擴展縮寫87
6.6 詞干提取87
6.7 詞形還原與詞性標注88
6.8 批量文檔預處理90
第7章 上手文本數(shù)據(jù)挖掘—文本特征提取的4種方法92
7.1 基本特征提取92
7.2 基于TF-IDF的特征提取94
7.3 詞嵌入96
7.3.1 基于BOW96
7.3.2 基于word2vec98
7.3.3 基于GloVe100
7.3.4 基于fastText101
7.4 文檔向量化:doc2vec102

第8章 文本分類—基于機器學習的方法105
8.1 無監(jiān)督分類105
8.1.1 基于文本相似度的聚類105
8.1.2 基于網(wǎng)絡集群識別的自動化聚類120
8.1.3 基于主題模型的分類125
8.2 有監(jiān)督分類129
8.2.1 二分類129
8.2.2 多分類136
第9章 深入理解文本內(nèi)涵—文本情感分析142
9.1 英文情感分析142
9.1.1 RSentiment143
9.1.2 sentimentr144
9.1.3 SentimentAnalysis145
9.1.4 meanr147
9.1.5 sentometrics148
9.2 中文情感分析151
9.2.1 環(huán)境與數(shù)據(jù)準備151
9.2.2 情感詞典準備151
9.2.3 中文分詞152
9.2.4 分值計算152
9.2.5 小結152
第10章 文本數(shù)據(jù)的直觀表達—文本可視化153
10.1 條形圖153
10.2 克利夫蘭點圖155
10.3 矩形樹狀圖156
10.4 詞云157
10.5 詞匯位置分布圖159
10.6 網(wǎng)絡圖164
10.7 雙文檔對比可視化167
第11章 舉一反三—文本數(shù)據(jù)挖掘項目實踐170
11.1 情感分析案例:量化中文新聞報道中的情感走勢170
11.2 文本分類案例:基于詞袋模型對英文期刊摘要來源進行分類176
11.3 關鍵詞提取案例:根據(jù)CRAN的介紹文本提取R包關鍵字181

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) www.shuitoufair.cn 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號