Python爬虫实战:采集淘宝商品信息并导入EXCEL表格! 您所在的位置:网站首页 python爬虫导出的excel在哪里看 Python爬虫实战:采集淘宝商品信息并导入EXCEL表格!

Python爬虫实战:采集淘宝商品信息并导入EXCEL表格!

2024-07-11 23:50| 来源: 网络整理| 查看: 265

文章目录 前言 一、解析淘宝URL组成 二、查看网页源码并用re库提取信息 1.查看源码2.re库提取信息 三:函数填写 四:主函数填写 五:完整代码 前言

本文简单使用python的requests库及re正则表达式对淘宝的商品信息(商品名称,商品价格,生产地区,以及销售额)进行了爬取,并最后用xlsxwriter库将信息放入Excel表格。最后的效果图如下:

提示:以下是本篇文章正文内容

一、解析淘宝URL组成

1.我们的第一个需求就是要输入商品名字返回对应的信息

所以我们这里随便选一个商品来观察它的URL,这里我们选择的是书包,打开网页,可知他的URL为:

https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

可能单单从这个url里我们看不出什么,但是我们可以从图中看出一些端倪

我们发现q后面的参数就是我们要获取的物品的名字

2.我们第二个需求就是根据输入的数字来爬取商品的页码

所以我们来观察一下后面几页URL的组成

由此我们可以得出分页的依据是最后s的值=(44(页数-1))

二、查看网页源码并用re库提取信息 1.查看源码

这里的几个信息都是我们所需要的

2.re库提取信息 a = re.findall(r'"raw_title":"(.*?)"', html)     b = re.findall(r'"view_price":"(.*?)"', html)


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有