R语言文本聚类实例

2024-07-13 12:28| 来源: 网络整理| 查看: 265

写在前面

因为结课论文的需要，我想写一篇关于分析金庸小说的小论文，查了些资料，感觉还行，一动手，发现问题大了去了。

所有的资料都有一个共同的问题：碎片化，不成体系。乍一看感觉是可行的，但是你真的动手去做的时候，就发现两个问题：

1、无从下手。脑子里的想法不知道怎么开始落实。

2、连不起来。各个步骤你基本都能查到，但是没办法理成一个完整、切实可行的流程。

以上是我着手做这件事的时候遇到的问题，把这些问题都解决好花了我小半个月的时间（时间零散，加上人也笨），终于可以把它整个的走一遍了。跟着我来，从获取素材开始，带你完整的走一遍文本聚类分析，不一定直接对你有用，但是它一定是一个好的分析模板。

下是目录，先直观的看看需要哪些步骤：

1、文本获取

2、文本预处理

3、导入R（代码开始）

4、分词和词频统计

5、选取聚类指标

6、数据整合

7、文本聚类及可视化

8、总结

1、文本获取

文本的获取当然很简单，自己从网上找到金庸先生的小说就好了，想分析哪个版本就下载哪个版本，这些资料很容易找到。

需要注意的是R语言对中文还是不太友好，需要找简体的小说，不能有繁体字，否则之后的分析会很麻烦。

2、文本预处理

这一步很重要，因为得到的原始小说是无法正常导入R中的。我在这一步尝试了很久，它一直提示读取到某某字符发生错误，而这些字符你在下载来的小说里根本就找不到。。。

弄了很久，我才想到一个有损信息质量的操作：

去标点符号。把所有你知道的标点符号都去掉，只留下汉字和空格、换行符，在导入R就顺利得多了。去标点符号需要用word，把小说一部一部的复制进word，通过【通配符】把所有的标点符号都替换成空格，就达到了目的。

我用到的通配符有：[『』，。、？！：“”……《》]（英文的“[ ]”是通配符的标志）。

具体步骤如下：

这里需要一点时间，因为整部小说很长，word处理它可能需要一两分钟，需要一点点耐心，而且得一部一部得弄，会有点小烦。

3、导入R（代码开始）

做好第一步的数据预处理，后面的难度就下降很多了。把14部小说以向量的形式导入R，还是那个笨办法：一部一部的导入。

当然也有更轻松的方法，不过它不够简单易懂。

导入的代码如下：

#设置工作空间 setwd("C:\\Users\\Administrator\\Desktop\\金庸小说全集-旧版") #导入文本 x

【本文地址】

公司简介

联系我们