第二十二篇，爬虫爬取亚马逊商品评论及评分用可视化方式显示

您所在的位置：网站首页 › 卖家评价内容怎么写 › 第二十二篇，爬虫爬取亚马逊商品评论及评分用可视化方式显示

第二十二篇，爬虫爬取亚马逊商品评论及评分用可视化方式显示

2024-07-15 02:15:07| 来源: 网络整理| 查看: 265

首先先观察网页：

不锈钢水杯

先获取十页评论看看能不能获取的到，别忘了导入我们所需要的框架：

之后查看网页源代码，使用xpath获取到我们需要的数据，再用matplotlib将数据可视化出来，最终代码及注释：

import requests from lxml import etree import re import matplotlib.pylab as plt headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0', 'Cookie': 'x-wl-uid=1DVw4k4T/jAduWIfwW2jvf029Ha4Bgv/AJGjP/yRfJTdq26dr7oDdeEBdb6zOPUl0ByfsaKJ3GUY=; session-id-time=2082729601l; session-id=457-7649276-4174543; csm-hit=tb:DAHATSQRZZBWHWD4ZXYP+s-T61YJHRDEC6Y6S2VMTVZ|1573355007668&t:1573355007668&adb:adblk_no; ubid-acbcn=459-2457809-1906210; session-token="4sZGQQPKw9CJUOzJFLsTdS3FtlpqIyp0hyvhXL6RMOchbDf7p7YLDEL90YFps2Hl80fBT6uPmzQ00meCLYxsrjuoabX3+kz7OB+CLw8GaAYZB8J9oBBcJLBUsGs6LLm/EHQht5Tm0IpOKR0hz0GGtATgcpJXDfRoEdvNol+CUc3mXOMA5KmEfFWstdV+KwyzSGrGW+DdrAftisgZMl2stffIdhcOLh53B4tJwsR5awKqPrOqZF8uJg=="; lc-acbcn=zh_CN; i18n-prefs=CNY' } #添加headers模拟浏览器防止被发现 hao = [] zhong = [] cha = [] #获取到的评论数存入里面 def parge_page(url): response = requests.get(url=url,headers=headers) #print(response) #测试一下看看也没有请求到网页 text = response.text html = etree.HTML(text) quan = html.xpath('//div[@id="cm_cr-review_list"]/div') #获取到每个人的评论 for i in quan: pinfen1 = i.xpath('.//span[@class="a-icon-alt"]/text()') #获取到每个人的评分几颗星 pinlun = i.xpath('.//a[@data-hook="review-title"]/span/text()') #获取到每个人评论的字 #print(pinlun) for pinfen in pinfen1: #print(pinlun) a = re.sub('颗星，最多 5 颗星','',pinfen) #使用正则把后面不用的字符串替换为空，显得好看 #print(a) list = {'评论':pinlun,'评分': a} print(list) if a 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0', 'Cookie': 'x-wl-uid=1DVw4k4T/jAduWIfwW2jvf029Ha4Bgv/AJGjP/yRfJTdq26dr7oDdeEBdb6zOPUl0ByfsaKJ3GUY=; session-id-time=2082729601l; session-id=457-7649276-4174543; csm-hit=tb:DAHATSQRZZBWHWD4ZXYP+s-T61YJHRDEC6Y6S2VMTVZ|1573355007668&t:1573355007668&adb:adblk_no; ubid-acbcn=459-2457809-1906210; session-token="4sZGQQPKw9CJUOzJFLsTdS3FtlpqIyp0hyvhXL6RMOchbDf7p7YLDEL90YFps2Hl80fBT6uPmzQ00meCLYxsrjuoabX3+kz7OB+CLw8GaAYZB8J9oBBcJLBUsGs6LLm/EHQht5Tm0IpOKR0hz0GGtATgcpJXDfRoEdvNol+CUc3mXOMA5KmEfFWstdV+KwyzSGrGW+DdrAftisgZMl2stffIdhcOLh53B4tJwsR5awKqPrOqZF8uJg=="; lc-acbcn=zh_CN; i18n-prefs=CNY' }

然后导入我们的request模块，没有就pip install模块名或者setting里面自行直接下载，导入代码：import requests 然后使用一个response来接收url与headers，因为我们观察到这个网页是一个get请求的方式所以我们的代码就是： response = requests.get(url=url,headers=headers) 直接:print（response）看看相应是否成功输出：表示已经成功了，因为我们要获取到100条评论，一页只有十条，很简单，网址中点击下一页找规律，发现就后面多了一个：?pageNumber=页数’,这里使用一个for循环：for x in range(10): #获取100条评论，一页10条 url = ‘https://www.amazon.cn/product-reviews/B074MFRPWL/?pageNumber=’+ str(x) 这样就可以获取到10页的网站。

第三步，爬取网页：

在这里插入图片描述网站我们页获取到了，接下来就是查看网页内容直接F12查看我们要获取的信息：导入lmxl模块：from lxml import etree，没有就参考上面自行下载先用个text接收一下我们获取到的网页：text = response.text 之后将它们转换为html的格式传给变量html接收：html = etree.HTML(text) 再使用xpath的方法通过属性id获取到十条评论数的所有信息：quan = html.xpath(’//div[@id=“cm_cr-review_list”]/div’) 然后再使用for循环遍历再用xpath到评论及几颗星 for i in quan: pinfen1 = i.xpath(’.//span[@class=“a-icon-alt”]/text()’) #获取到每个人的评分几颗星 pinlun = i.xpath(’.//a[@data-hook=“review-title”]/span/text()’) #获取到每个人评论的字输出一下评分：print(pinfen1):[‘3.0 颗星，最多 5 颗星’]… 输出一下评论：print(pinlun):[‘颜色特别，杯子轻巧’]… 发现评分后面那几个字符串是多余的，咱就使用正则把它给替换掉，因为它现在类型是一个列表，我们就要使用for循环遍历一下： for pinfen in pinfen1: a = re.sub(‘颗星，最多 5 颗星’,’’,pinfen) 这里面别忘了导入模块：import re，没有就照上面方法下载这里不知道里面传递什么的可以参考一下帮助文档：sub(pattern, repl, string, count=0, flags=0)。我们第一个传递的是需要替换的字符串，第二个是替换为什么，我们这里是替换为空，第三个就是传递进去的参数。之后输出一下看看也没有替换成功：print(pinfen)：3.0 …。明显输出成功了之后我们使用一个list来接收一下：list = {‘评论’:pinlun,‘评分’: a} 上面就是一个key，value类型的字典。别忘了我们还要分类这些评论好评中评及差评：这里先在全局里面创建三个空的列表再使用一个if判断来实现，小于2.0星的为差评。小于4。0星的为中评，否则为好评代码将它们用append方法传入代码如下：

hao = [] zhong = [] cha = [] #获取到的评论数存入里面 if a

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

第二十二篇，爬虫爬取亚马逊商品评论及评分用可视化方式显示

第二十二篇，爬虫爬取亚马逊商品评论及评分用可视化方式显示

今日新闻

点击排行

推荐新闻

图片新闻

专题文章