【文本挖掘】 您所在的位置:网站首页 词汇出现频率统计 【文本挖掘】

【文本挖掘】

2024-06-23 11:10| 来源: 网络整理| 查看: 265

词频统计、词云+实战 一、词频统计: 1.基本概念及原理 2.词频统计方法 二、词云 1.词云绘制工具: 2.python词云绘制——Wordcloud 三、基于分词频数绘制词云 1.利用词频绘制词云 2.美化词云 四、实战篇——《微微一笑很倾城》 1.语料库准备 2.分词 3.词频统计 3.词云绘制及美化 这里主要是介绍了词频统计和词云,至于分词,如果您有什么困惑可以参考我的上一篇 【文本挖掘】——中文分词哦~

一、词频统计: 1.基本概念及原理

  这一步是在做完分词之后进行的,所以以下所有步骤都基于分词后构建的词条的list进行。说白了他就是统计每个词在文中出现过多少次,主要目的是为找出频次高的”关键词“打基础。

词频统计的伪代码:

在这里插入图片描述

2.词频统计方法

①基于pandas的词频统计:

  输出结果为一个序列,该序列每一行的标签就是进行统计的词,数值就是其频数。

#使用pandas进行词频统计 word_list=['july','可爱','傻fufu','聪明','好可爱','精致','猪猪女孩','猪猪女孩','聪明','聪明'] df=pd.DataFrame(word_list,columns=['word']) result=df.groupby(['word']).size() freqlist=result.sort_values(ascending=False) freqlist[:30] >>word 聪明 3 猪猪女孩 2 精致 1 好可爱 1 可爱 1 傻fufu 1 july 1 dtype: int64

②基于nltk进行词频统计:

  其输出结果为频数字典,这就很方便,也很适合后边词云时候用。

#使用NLTK进行词频统计 import nltk word_list=['july','可爱','傻fufu','聪明','好可爱','精致','猪猪女孩','猪猪女孩','聪明','聪明'] fdlist=nltk.FreqDist(word_list) print("聪明的词频:",fdlist['聪明'])#查看某个词的频数 print("词条列表:",fdlist.keys())#列出词条列表 print("前五个高频词及其频次为:",fdlist.most_common(5))#输出前五个高频词及其频次 fdlist#输出全部词频统计结果 #fdlist.tabulate(5)#输出前五个高频词,以列表形式输出 >>聪明的词频: 3 词条列表: dict_keys(['july', '可爱', '傻fufu', '聪明', '好可爱', '精致', '猪猪女孩']) 前五个高频词及其频次为: [('聪明', 3), ('猪猪女孩', 2), ('july', 1), ('可爱', 1), ('傻fufu', 1)] FreqDist(


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有