python爬虫 | 您所在的位置:网站首页 › 各大明星王者荣耀名字 › python爬虫 |
目录 前言 一、准备工作 二、具体步骤 1.获取王者荣耀官网所有英雄所在页面的网页的源代码 2.获取王者荣耀各个英雄的具体网址 response.textd的部分内容如下 3.提取其中的数据 4.把数据保存到excel中 总结 前言这里我们不用selenium模拟人进行爬取数据,直接用requests模块获取相关信息。 整体思路: 1、获取王者荣耀官网所有英雄所在页面的网页的源代码 2、获取王者荣耀各个英雄的具体网址 3、提取其中的数据 4、把数据保存到excel中 以下是本篇文章正文内容 一、准备工作 import requests import re import pandas as pd base_url = 'https://pvp.qq.com/web201605/herolist.shtml' headers = { 'referer': 'https://pvp.qq.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' }首先导入requests、re、pandas模块,谷歌浏览器搜索王者荣耀官网,找到英雄资料并将网址,头信息中的referer、user-agent写入程序中。 二、具体步骤 1.获取王者荣耀官网所有英雄所在页面的网页的源代码代码如下: base_url = 'https://pvp.qq.com/web201605/herolist.shtml' headers = { 'referer': 'https://pvp.qq.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(base_url, headers=headers) response.encoding = 'gbk' r = response.text # print(r)输出的是网页的全部源代码没有response.encoding = 'gbk'会导致输出结果存在乱码。 2.获取王者荣耀各个英雄的具体网址 上图右边代码放大如下: 由图中我们观察到 href="herodetail/155.shtml"中的herodetail/155.shtml即为个个英雄的相关网址,但是经过观察,其中的数字没有啥规律,因此我们使用re正则表达式取出数字,并保存在hero_xuhao_list中,然后利用for循环,构建每个英雄的网址,代码如下: # 由于英雄的网址为无序,故使用re wangzhi = re.compile(r' |
CopyRight 2018-2019 实验室设备网 版权所有 |