【Python数据分析】文本情感分析 您所在的位置:网站首页 电影蜻蜓影评分析 【Python数据分析】文本情感分析

【Python数据分析】文本情感分析

2024-03-03 09:21| 来源: 网络整理| 查看: 265

  情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义、贬义还是中性。常见的情感分析的使用场景就是客户对商品或服务的评价、反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率(速度和准确度)也不高。

  这里使用Python对电影《哪吒之魔童降世》的评论进行文本分析,这种分析方式还可用于垃圾邮件的过滤、新闻的分类等场景。

  分析步骤:

  1、对文本数据进行预处理,包括文本缺失值重复值处理、分词、去除停用词、文本向量化。

  2、描述性统计分析,统计词频、生成词云图。

  3、验证性统计分析,通过方差分析进行特征选择。

  4、统计建模,根据文本向量进行文本分类。

目录 文本数据预处理 缺失值处理 重复值处理 文本内容清理 分词 停用词处理 词汇统计 词汇频数、频率统计 评论词汇长度统计 生成词云图

文本数据预处理 缺失值处理

  1、检查缺失值。

#查看每一列的缺失值 data.isnull().sum()

在这里插入图片描述   2、填充缺失值。

#填充缺失值 data['city'].fillna('未知',inplace = True) data.dropna(inplace = True) data.isnull().sum()

在这里插入图片描述

重复值处理

  重复数据对文本分析和建模没有帮助,直接删去。

#删除重复记录 data.drop_duplicates(inplace=True) 文本内容清理

  文中的表达符号、特殊字符,通常对文本分析的作用不大,删除。删除文本中的指定字符用正则匹配的方式。   清洗前: 在这里插入图片描述

#文本内容清洗,清楚特殊符号,用正则表达式


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有