Python爬取淘宝销量数据！这年头数据就是钱啊！

2024-07-14 06:11| 来源: 网络整理| 查看: 265

前言

本文记录学习爬取淘宝网站上各品类下的销量最高的商品数据代码实现过程，涉及使用selenium库中的webdriver操作GOOGLE浏览器进行登陆、搜索、点击按销量从高到底排序、获取页面内容并使用beautiful库解析的过程。

一、基本环境配置

python版本:python 3.8.3 编辑器：anaconda3下的spyder 浏览器版本：Google Chrome 87.0.4280.88 浏览器驱动器：本文通过selenium中的webdriver驱动浏览器模拟人的点击行为爬取信息的，因为还需要下载浏览器对应版本的驱动器，谷歌驱动器下载地址： https://npm.taobao.org/mirrors/chromedriver 这个地址下有各类版本的驱动器，找到自己版本下的谷歌驱动器(我自己下载的版本是/87.0.4280.20)，下载放置到谷歌的目录下，并将该路径添加到环境变量即可

二、使用步骤 1.引入库

代码如下（示例）：

from bs4 import BeautifulSoup from selenium import webdriver #ActionChain是用来实现一些基础的自动化操作：比如鼠标移动、鼠标点击等，ActionChains可以实现一步操作多个步骤 from selenium.webdriver import ActionChains import PIL from PIL import Image import time import base64 #Base64编码是从二进制到字符的过程 import threading import pandas as pd

主要库的作用： BeautifulSoup：可以从HTML或XML文件中提取数据的python库，能够通过喜欢的转换器实现惯用的文档导航，查找，修改文档的方式，本文主要用该库对webriver爬到的网页数据进行解析，获取想要的数据内容，具体介绍可以参照如下网址： https://beautifulsoup.readthedocs.io/zh_CN/latest/ selenium.webdriver:一般python爬取网页数据时使用的是urllib中的urlopen方法,返回网页对象，并使用read方法获取url的html内容，然后再使用beautifulsoup结合正则表达式抓取某个标签内容，urlopen还可以实现带着登陆后的cookies访问网站内容而免去每次都要登陆的烦恼；但是urllib的局限处在于只能获取网页的静态html内容，网页中的动态内容是不包含在静态html中的，所以有的时候抓取的网站html信息与我们实际在网站中看到的html信息不一致。selenium模块可以获取动态网页生成的内容。 Image：Image.open()可以打开文件夹中的图片，本文用来打开下载至本地的淘宝登陆二维码，通过扫描打开大的图片二维码可以实现淘宝扫码登陆。 time：本文中通过使用time.sleep()方法可实现暂时休眠功能，防止访问速度过快被识别出为爬虫。

2.实际案例

登陆淘宝：

def login_first(self): #淘宝首页链接一开始使用https时request.get返回status_code为502 #pageview_url = 'http://www.taobao.com/?spm=a1z02.1.1581860521.1.CPoW0X' 类属性中已经定义 #PhantomJS与Chrome的差别在于Chrome可以启动浏览器，观察到代码操作的每一个步骤进行的页面操作PhantomJS模拟一个虚拟浏览器，即在不打开浏览器的前提下对浏览器进行操作 #driver = webdriver.PhantomJS() #driver = webdriver.Chrome() 类属性中已经定义 #在get()步加载时间会很长不知道是不是网络的问题，所以限制加载20秒以后停止加载 self.driver.set_page_load_timeout(40) self.driver.set_script_timeout(40) try: self.driver.get(self.pagelogin_url) except: print("页面加载太慢，停止加载，继续下一步操作") self.driver.execute_script("window.stop()") #此处需要设置等待，不然再页面缓存完之前就执行以下语句会导致找不到元素 time.sleep(40) #找到登陆按钮并点击 #原本在获取cookies后通过request库带着cookies访问需要登陆才可访问的页面，但是对于webdriver没有作用 #wedriver元素定位的各种方法https://www.cnblogs.com/yufeihlf/p/5717291.html #网页自动化最基本的要求就是先定位到各个元素，然后才能对各元素进行操作(输入、点击、清除、提交等) #XPath是一种XML文档中定位元素的语言。该定位方式也是比较常用的定位方式 #8.1通过属性定位元素 find_element_by_xpath("//标签名[@属性='属性值']") #可能的属性：id、class、name、m

【本文地址】

公司简介

联系我们