词云图:由python 机器学习和Jieba +spsspro绘图实现 | 您所在的位置:网站首页 › pycharm做词云图 › 词云图:由python 机器学习和Jieba +spsspro绘图实现 |
1.使用的软件
python
Python 3.9.12 PycharmPyCharm Community Edition 2020.2.1(其他版本pycharm也行) Spssprospsspro(这个是一个免费的网站软件:网站链接) 2.python所需安装包sklearn包 作用:用于提取文本特征值 下载:可以在cmd命令行输入pip install sklearn 进行下载 jieba包 作用:用于切分中文文本 下载:在cmd中输入 pip install jieba pandas包 作用:处理数据 下载:在cmd中输入pip install pandas 3.具体完整代码:用一篇我水水水的要死 的形势政策论文为例,提取其中特征,进行词云图可视化 # coding=gbk # 开发时间:2022/5/12 11:52 from sklearn.feature_extraction.text import CountVectorizer import sklearn as sk import jieba import pandas as pd import numpy as np def text_chinese_demo(): def cut_word(data): # 对中文切分 return " ".join(list(jieba.cut(data))); #中文文本特征提取 with open('形势政策.txt','r') as file: data=file.read(); ciyun=[] data_new=[]; data=[data]; print(data) for i in data:#对文本元素进行迭代切分,得到新的数据data_new data_new.append(cut_word(i)); print(data_new) transfer = CountVectorizer(stop_words=["\n",",","。"]) # 创建一个对象 data_new1= transfer.fit_transform(data_new); # 转化提取特征值 print("data_new:\n", data_new1.toarray())#输出特征值数组 print(transfer.get_feature_names_out())#输出特征名称 It=data_new1.toarray() name=transfer.get_feature_names_out(); i=-1; for n in name: i=i+1; for x in range(It[0][i]): ciyun.append(n); ciyun=pd.DataFrame(ciyun) ciyun.to_excel(r'C:\Users\86188\Desktop\数据\词云图2.xlsx'); if __name__ == '__main__': text_chinese_demo() #提示:只需把文本数据换成自己的文本即可 4.将提取处理后得到的数据导入到spsspro并绘图效果: 这里是落墨,把自己学到的有用的分享给大家,希望大家用的开心!如果有问题,请多多指教,毕竟我也是没学多久的菜鸡~,谢谢大家! |
CopyRight 2018-2019 实验室设备网 版权所有 |