【Python数据分析】文本情感分析 | 您所在的位置:网站首页 › 电影蜻蜓影评分析 › 【Python数据分析】文本情感分析 |
情感分析是文本分析的一种,它能够从一段文本描述中理解文本的感情色彩,是褒义、贬义还是中性。常见的情感分析的使用场景就是客户对商品或服务的评价、反馈,传统模式下的人工审核,不仅消耗大量人力,而且效率(速度和准确度)也不高。 这里使用Python对电影《哪吒之魔童降世》的评论进行文本分析,这种分析方式还可用于垃圾邮件的过滤、新闻的分类等场景。 分析步骤: 1、对文本数据进行预处理,包括文本缺失值重复值处理、分词、去除停用词、文本向量化。 2、描述性统计分析,统计词频、生成词云图。 3、验证性统计分析,通过方差分析进行特征选择。 4、统计建模,根据文本向量进行文本分类。 目录 文本数据预处理 缺失值处理 重复值处理 文本内容清理 分词 停用词处理 词汇统计 词汇频数、频率统计 评论词汇长度统计 生成词云图 文本数据预处理 缺失值处理1、检查缺失值。 #查看每一列的缺失值 data.isnull().sum()
重复数据对文本分析和建模没有帮助,直接删去。 #删除重复记录 data.drop_duplicates(inplace=True) 文本内容清理 文中的表达符号、特殊字符,通常对文本分析的作用不大,删除。删除文本中的指定字符用正则匹配的方式。 清洗前: |
CopyRight 2018-2019 实验室设备网 版权所有 |