python爬虫

2024-06-20 22:09| 来源: 网络整理| 查看: 265

前言

一、准备工作

二、具体步骤

1.获取王者荣耀官网所有英雄所在页面的网页的源代码

2.获取王者荣耀各个英雄的具体网址

response.textd的部分内容如下

3.提取其中的数据

4.把数据保存到excel中

总结

前言

这里我们不用selenium模拟人进行爬取数据，直接用requests模块获取相关信息。

整体思路：

1、获取王者荣耀官网所有英雄所在页面的网页的源代码

2、获取王者荣耀各个英雄的具体网址

3、提取其中的数据

4、把数据保存到excel中

以下是本篇文章正文内容

一、准备工作 import requests import re import pandas as pd base_url = 'https://pvp.qq.com/web201605/herolist.shtml' headers = { 'referer': 'https://pvp.qq.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' }

首先导入requests、re、pandas模块，谷歌浏览器搜索王者荣耀官网，找到英雄资料并将网址，头信息中的referer、user-agent写入程序中。

二、具体步骤 1.获取王者荣耀官网所有英雄所在页面的网页的源代码

代码如下：

base_url = 'https://pvp.qq.com/web201605/herolist.shtml' headers = { 'referer': 'https://pvp.qq.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(base_url, headers=headers) response.encoding = 'gbk' r = response.text # print(r)输出的是网页的全部源代码

没有response.encoding = 'gbk'会导致输出结果存在乱码。

2.获取王者荣耀各个英雄的具体网址

上图右边代码放大如下：

由图中我们观察到 href="herodetail/155.shtml"中的herodetail/155.shtml即为个个英雄的相关网址，但是经过观察，其中的数字没有啥规律，因此我们使用re正则表达式取出数字，并保存在hero_xuhao_list中，然后利用for循环，构建每个英雄的网址，代码如下：

# 由于英雄的网址为无序，故使用re wangzhi = re.compile(r'

【本文地址】

公司简介

联系我们