R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化 您所在的位置:网站首页 聚类分析的图怎么做 R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

R语言文本挖掘:kmeans聚类分析上海玛雅水公园景区五一假期评论词云可视化

2023-05-19 00:53| 来源: 网络整理| 查看: 265

全文链接:http://tecdat.cn/?p=32307

互联网时代,大量的新闻信息、网络交互、舆情信息以文本形式存储在数据库中,如何利用数据分析和文本挖掘的算法,将海量文本的价值挖掘出来,成为我们团队近期的一个研究方向,本案例就是我们的一个尝试(点击文末“阅读原文”获取完整代码数据)。

相关视频

文本聚类其实也就是聚类分析在文本方向上的应用,首先我们要把一个个文档的自然语言转换成数学信息,这样形成高维空间点之后再去计算点与点之间的距离,然后将这些距离比较近的聚成一个簇,这些簇的中心成为簇心。而我们做的就是保证簇内点的距离足够近,簇与簇的距离足够远。

本文将通过R语言帮助客户来实现文本挖掘、聚类和词云可视化技术,体验一下舆情分析的魅力。

原始评论数据

本文获取上海玛雅水公园景区评论数据共计1692条数据:

077a48c15c8b9785a2d2e90bda8c02f4.png

读取数据 pinglun=read.xlsx("玛雅景区数据5.8.xlsx") 文本预处理 res=pinglun1[pinglun1!=" "]; #剔除通用标题 # res=gsub(pattern="[專賣店【未拆封順豐】||]+"," ",res); #剔除特殊词 res=gsub(pattern="[我|你|的|了|是]"," ",res); #清理文本里的回车!否则每个回车就会被识别成一段文本 res=gsub("\n","",res) 分词+频数统计 words=unlist(lapply(X=res, FUN=segmentCN)); 过滤掉1个字和词频小于100的记录 d=subset(d, nchar(as.character(d$word))>1 & d$freq>=100) 输出关键词结果 write.table(d, file="/worldcup_keyword.txt", row.names=FALSE) 绘制词汇图 wordcloud(d$word,d$freq,random.order=FALS

5d297c96482a8d34326613b978a30bc0.png

点击标题查阅往期内容

1c63e63144c3b994db69ecdc4bdf62ea.jpeg

自然语言处理NLP:主题LDA、情感分析疫情下的新闻文本数据

outside_default.png

左右滑动查看更多

outside_default.png

01

6514eecf767f29fa2921e0c5c4c7c5a2.png

02

d3d3c6ea76ec2fea6c899f1619421771.png

03

d11d746a59a47b16c0763a2ba6907d8e.png

04

ed09bd8387df2f915329c4b1bf2061ff.png

kmeans聚类部分

转换成评价矩阵

rating=matrix(0,length(res1),dim(d)[1])#生成评价矩阵 for(i in 1:length(res1)){ words=unlist(lapply(X=res1[i], FUN=segmentCN));#对每一条记录分析获得词频 #输出评价矩阵############################### write.table(rating, file="评价矩阵.txt", row.names=FALSE) 对评价矩阵进行k均值聚类 kmeans(rating,5)#对评价矩阵进行k均值聚类 词云可视化 #第一个类别################################ mycolors


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有