R语言聚类、文本挖掘分析虚假电商评论数据:K 您所在的位置:网站首页 r语言聚类分析代码 R语言聚类、文本挖掘分析虚假电商评论数据:K

R语言聚类、文本挖掘分析虚假电商评论数据:K

2024-06-01 14:32| 来源: 网络整理| 查看: 265

分析

数据集与环境

本文的实验环境为Windows 7操作系统,R编程环境。同时选取了“B2C电商评论信息数据集”作为实验对象。这个数据集中包含了2370条B2C电商评论信息。

数据文件:

设计

在这里,为了提高算法效率,降低数据的稀疏性,本文首先导入文本数据,对该数据进行文本挖掘。筛选出所有评论中词频最高的前30个词汇,用作实验的聚类属性。

# == 分词+频数统计

words=unlist(lapply(X=data, FUN=segmentCN));

每个高频词汇和其词频数据如下表所示:

wordfreq漂亮547喜欢519颜色477质量474丝巾452不错435好评425谢谢277非常273解释263愉快237生活229满意226继续225宝贝222美丽217一天214提供214努力213祝愿212衷心212赏赐212感恩212收到211没有187色差141好看126图片120可以110通过中文分词Rwordseg词频云软件包可以根据不同的词汇的词频高低来显示文本挖掘的高频词汇的总体结果。通过将词频用字体的大小和颜色的区分,我们可以明显地看到哪些词汇是高频的,哪些词汇的频率是差不多的,从而进行下一步研究。

实验采用上述数据集得到的高频词汇得到每个用户和高频词汇的频率矩阵。

记录漂亮喜欢颜色质量丝巾满意100000020100003110000411000050000106100000710000080010009020000100000011101101012000000131002111400000015110100160100001710111018000000用户词汇频率矩阵表格的一行代表用户的一条评论,列代表高频词汇,表中的数据代表该条评论中出现的词汇频率。

结果及分析

K-均值聚类算法的虚假评论聚类结果

用K-mean进行分析,选定初始类别中心点进行分类。

一般是随机选择数据对象作为初始聚类中心,由于kmeans聚类是无监督学习,因此需要先指定聚类数目。

层次聚类是另一种主要的聚类方法,它具有一些十分必要的特性使得它成为广泛应用的聚类方法。它生成一系列嵌套的聚类树来完成聚类。

从树的直观表示来看,当height取80的时候,树的分支可以大概分成2类,分成的类别比较清楚和直观,因此我们去k等于2,分别对应虚假评论和真实评论。

K-means算法得到的聚类中心

#查找虚假评论

#比较典型的识别方式

# 看文字,什么非常好,卖家特别棒,我特满意,以后还会来等等,写一大堆文字,但是没有对产品有实质性描述的,一般是刷的,这一点是主要判断依据,因为刷单的人一般要写很多家的评价,所以他不会对产品本身做任何评论,全都是一些通话套话。

fake1= grep(pattern="非常好" ,data);

fake2= grep(pattern="卖家特

for(j in 1:length(index)){

jj=which(dd[,1]==index[j])

rating[i,colnames(rating)==index[j]]=dd[]]#高频词汇的数量赋值到评价矩阵

}

}

cl=kmeans(rating,2)#对评价矩阵进行k均值聚类

write.csv(cl$cent

每个类所有点到类中心的距离之和与平均距离

通过设定距离阈值k=2,我们找出了3356个异常值并将其剔除。

然后绘制聚类散点图,通过聚类图,我们可以看到真实评论和虚假评论明显地被分成了两个聚类簇。

最后对2个类分别做了词频统计,并用词频云表示每个类的特征。

真实评论

wordcloud(colnames(c

虚假评论

从词频云图可以看到,真实的评价中的主要关键词是质量,不错,色差等,从这些关键词来看,本文可以推测这类用户主要看重的是商品的功能性和质量型,并且主要集中在一些基本的特征,如质量、色差。也可以推测这些用户的商品评论没有太多华丽的词汇,而只是简单的不错,谢谢等。因此,可以认为真实的评论一般比较简单,并且会有一些对商品具体的方面的不足进行描述如色差,而不是一味的非常好、喜欢、愉快等。

虚假评论类别中主要的关键词是好评!,感恩!,美丽!,赏赐!、努力!祝愿!等词汇。从这些关键词我们大致可以推测这类用户主要使用的是一些华丽的词藻。他们比较看重评论的夸张度和给人的好感度,更在乎评论给别的买家造成的美好体验。这些用户往往使用很“完美”的评价,大多使用好评、美丽、感恩等评价很高的词汇,而没有很关注商品的质量和具体的细节,一般套用了相近的评论模板,因此可以认为是虚假评论。

参考文献

[1]T Zhang.R.Ramakrishnan and M.ogihara.An efficient data clustering method for very largedatabases.In Pror.1996 ACM-SlGMOD hat.Conf.Management of Data,Montreal.Canada,June 1996:103.114.

[2]邵峰晶,于忠清,王金龙,孙仁城 数据挖掘原理与算法(第二版) 北京:科学出版社 ,2011, ISBN 978-7-03-025440-5.

[3]张建辉.K-meaIlS聚类算法研究及应用:[武汉理工大学硕士学位论文].武汉:武汉理工大学,2012.

[4]冯超.K-means 类算法的研究:[大连理工大学硕士学位论文].大连:大连理工大学,2007.

[5]曾志雄.一种有效的基于划分和层次的混合聚类算法.计算机应用,2007,27(7):1692.1695.

[6]范光平.一种基于变长编码的遗传K-均值算法研究:[浙江大学硕士学位论文].杭州:浙江大学,2011.

[7]孙士保,秦克云.改进的K-平均聚类算法研究.计算机工程,2007,33(13):200.202.

[8]孙可,刘杰,王学颖.K均值聚类算法初始质心选择的改进.沈阳师范大学学报,2009,27(4):448-450.

[9]Jain AK,Duin Robert PW,Mao JC.Statistical paaern recognition:A review.IEEE Trans.Actions on Paaem Analysis and Machine Intelligence,2000,22(1):4-37.

[10]Sambasivam S,Theodosopoulos N.Advanced data clustering methods ofmining web documents.Issues in Informing Science and Information Technology,2006,8(3):563.579.

最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型:数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析返回搜狐,查看更多



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有