【正版包邮】文本挖掘基于R语言的整洁工具R语言基础R语言理论程序设计编程计算机书网络抓取和文本挖掘实用指南文本挖掘技术应用.
- 产品名称:文本挖掘基于R语言的整洁工...
- 是否是套装:否
- 书名:文本挖掘基于R语言的整洁工具
- 定价:59.00元
- 出版社名称:机械工业出版社
- 出版时间:2018年1月
- 作者:(美)茱莉亚·斯拉格(JuliaSilge)
- 作者地区:美国
- 译者:刘波
- 书名:文本挖掘基于R语言的整洁工具
59 文本挖掘:基于R语言的整洁工具 59 (美)茱莉亚·斯拉格(Julia Silge) 全书共9章,主要介绍如何使用基于R的整洁工具来进行文本分析。首先介绍了整洁文本的格尸以及如何获取整洁文本数据集;并通过tidytext中的情感数据集来进行情绪分析;接着介绍了如何根据tf-idf统计量来识别特定文档中的重要单词,以及如何利用n-gram来分析文本中的文字网络;之后介绍了如何将整洁文本转换为文档词项矩阵和Corpus对象格尸并给出了主题建模的概念;后通过整合多种已知的整洁文本挖掘方法,给出了一些研究案例,这些案例涉及Twitter归档文件、NASA数据集以及来自新闻组的即时通信信息。 "目录
前言1
第1章 整洁文本格式7
比较整洁文本结构与其他数据结构8
unnest_tokens函数8
整理Jane Austen的作品10
gutenbergr包13
词频13
总结17
第2章 基于整洁数据的情感分析18
情感数据集18
内连接的情感分析21
比较三个情感词典24
最常见的正面单词和负面单词26
Wordclouds模块 28
除单词外的其他文本单30
总结32
第3章 分析词和文件频率:tf-idf33
Jane Austen小说中的词项频率34
Zipf定律35
bind_tf_idf函数38
物理学语料库41
总结45
第4章 词之间的关系:n-gram及相关性46
n-gram词条化46
用widyr包对单词对计数并计算相关性60
总结66
第5章 非整洁格式转换67
使文档–词项矩阵整洁67
将整洁文本数据转换为矩阵74
总结84
第6章 主题建模85
LDA 86
示例:博大的图书馆馆藏91
LDA方法的替代实现 101
总结102
第7章 案例研究:Twitter归档文件比较103
单词使用情况的比较107
单词使用情况的变化109
收藏和转发113
总结 117
第8章 案例研究:NASA数据挖掘118
NASA如何组织数据118
共现单词与相关单词123
计算描述字段的tf-idf129
总结142
第9章 案例研究:分析Usenet文本143
预处理143
新闻组中的单词146
情感分析151
总结159
参考文献160"