京东评论采集 | 您所在的位置:网站首页 › 八爪鱼图片素材高清 › 京东评论采集 |
采集场景 京东商品详情页中的评价,有多个分类:【全部评价】、【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】。其中【全部评价】默认展现,其他需点击后展现。本文以按【差评】筛选采集为例讲解。实例网址:https://item.jd.com/100005185609.html;https://item.jd.com/100006607505.html;https://item.jd.com/100004770263.html。
采集字段 评价正文、评价星级、商品参数、评价时间、页面网址、评价获赞数、评价获回复数。
鼠标放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图 下文其他图片同理
采集结果 采集结果可导出为Excel、CSV、HTML、数据库等多种格式。导出为Excel示例:
教程说明 本篇更新时间:2020/5/7 八爪鱼版本:V8.1.8 如果因网页改版造成网址或步骤无效,无法收集到目标数据,请联系官方客服,我们将及时修正。
采集步骤 步骤一:打开网页 步骤二、设置滚动 步骤三、按差评筛选评论 步骤四、创建【循环列表】,采集所有评价数据 步骤五、创建循环翻页,以采集多页数据 步骤六、启动采集
以下为具体步骤:
步骤一、打开网页
在首页选择【自定义任务】,输入一批京东商品详情页网址,点击【开始采集】,八爪鱼自动打开第1个网址。 目标网址:https://item.jd.com/100005185609.html https://item.jd.com/100006607505.html https://item.jd.com/100004770263.html
特别说明: a. 打开网页后,如果开始开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表,滚动和翻页,识别成功后直接启动采集并获取数据。如果【自动识别】的结果不是我们需要的,可点击【取消】关闭智能识别,自行配置采集流程。详情点击查看【自动识别】 b. 以上操作会自动生成一个【循环网址】,启动采集后,八爪鱼会自动打开每个网址,采集每个网址中的数据。 c. 示例中输入了3个商品详情页网址,可根据需求更换。支持批量导入,详情见 从本地文件导入网址教程 。
步骤二、设置滚动
【商品评价】按钮需向下滚动页面才会真正加载出来,在八爪鱼中也需设置滚动。 进入【打开网页】设置页面,点开【页面加载后】,设置【页面加载后向下滚动】,滚动方式为【向下滚动一屏】,【滚动次数】为6次,【每次间隔】2秒 并保存。
特别说明: a. 设置中的滚动次数和时间间隔,请根据采集需求和网页加载情况进行设置,并非是一成不变的,具体请点击查看 处理滚动加载数据的网页教程
步骤三、按差评筛选评论
1、筛选【差评】 向下滚动页面至评论区域,选中【商品评价】,在操作提示框中点击【点击该元素】,页面默认展示【全部评价】。 本示例筛选【差评】进行采集。选中【差评】,在操作提示框中点击【点击该链接】,展开差评。
特别说明: a.【晒图】、【视频晒单】、【追评】、【好评】、【中评】、【差评】的筛选方法也是一样的,需要筛选哪个分类,在八爪鱼中做一个点击哪个分类的步骤。
2、设置【Ajax】加载 此网页的【差评】按钮,使用了Ajax加载,因此不能勾选新标签。 进入【点击元素1】设置页面,取消勾选【在新标签中打开】,并勾上【Ajax加载数据】,【Ajax超时】时间选择5-7秒,然后保存。
特别说明: a. 使用了Ajax技术的网页,一般不勾选【在新标签中打开】。【Ajax超时】请根据采集需求和网页加载情况进行设置,并非是一成不变的,详情点击查看 Ajax教程 。
步骤四、创建【循环列表】,采集所有评价数据
1、建立【循环列表】 通过以下连续3步,建立【循环列表】, ① 选中页面上1个评价列表 ② 继续选中页面上第2个评价列表 ③ 在操作提示框中,点击【采集以下元素文本】 此时将整个评价列表作为整个字段提取下来,如手动将列表中的字段一一提取出来。
特别说明: a. 经过以上连续3步,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有评价列表。此时是将整个评价列表作为整个字段提取下来,如手动将列表中的字段一一提取出来。 b. 为何通过以上3步,可建立【循环-提取数据】?详情点击查看 列表数据采集教程 。
2、修改【循环列表】XPath 为了精准采集到所有差评,需修改【循环列表】XPath。 进入【循环列表】设置页面,修改XPath为 //div[@id='comment-6']/div[position() |
CopyRight 2018-2019 实验室设备网 版权所有 |