词云图：由python 机器学习和Jieba +spsspro绘图实现

2024-03-04 17:45| 来源: 网络整理| 查看: 265

1.使用的软件 python

Python 3.9.12

Pycharm

PyCharm Community Edition 2020.2.1（其他版本pycharm也行）

Spsspro

spsspro（这个是一个免费的网站软件：网站链接）

2.python所需安装包

sklearn包作用：用于提取文本特征值下载：可以在cmd命令行输入pip install sklearn 进行下载

jieba包作用：用于切分中文文本下载：在cmd中输入 pip install jieba

pandas包作用：处理数据下载：在cmd中输入pip install pandas

3.具体完整代码：

用一篇我水水水的要死的形势政策论文为例，提取其中特征，进行词云图可视化

# coding=gbk # 开发时间:2022/5/12 11:52 from sklearn.feature_extraction.text import CountVectorizer import sklearn as sk import jieba import pandas as pd import numpy as np def text_chinese_demo(): def cut_word(data): # 对中文切分 return " ".join(list(jieba.cut(data))); #中文文本特征提取 with open('形势政策.txt','r') as file: data=file.read(); ciyun=[] data_new=[]; data=[data]; print(data) for i in data:#对文本元素进行迭代切分，得到新的数据data_new data_new.append(cut_word(i)); print(data_new) transfer = CountVectorizer(stop_words=["\n","，","。"]) # 创建一个对象 data_new1= transfer.fit_transform(data_new); # 转化提取特征值 print("data_new:\n", data_new1.toarray())#输出特征值数组 print(transfer.get_feature_names_out())#输出特征名称 It=data_new1.toarray() name=transfer.get_feature_names_out(); i=-1; for n in name: i=i+1; for x in range(It[0][i]): ciyun.append(n); ciyun=pd.DataFrame(ciyun) ciyun.to_excel(r'C:\Users\86188\Desktop\数据\词云图2.xlsx'); if __name__ == '__main__': text_chinese_demo() #提示：只需把文本数据换成自己的文本即可 4.将提取处理后得到的数据导入到spsspro并绘图

在这里插入图片描述

效果：在这里插入图片描述

这里是落墨，把自己学到的有用的分享给大家，希望大家用的开心！如果有问题，请多多指教，毕竟我也是没学多久的菜鸡~，谢谢大家！

【本文地址】

公司简介

联系我们