python爬虫 您所在的位置:网站首页 各大明星王者荣耀名字 python爬虫

python爬虫

2024-06-20 22:09| 来源: 网络整理| 查看: 265

目录

前言

一、准备工作

二、具体步骤

1.获取王者荣耀官网所有英雄所在页面的网页的源代码

2.获取王者荣耀各个英雄的具体网址

response.textd的部分内容如下

3.提取其中的数据

4.把数据保存到excel中

总结

前言

这里我们不用selenium模拟人进行爬取数据,直接用requests模块获取相关信息。

整体思路:

1、获取王者荣耀官网所有英雄所在页面的网页的源代码

2、获取王者荣耀各个英雄的具体网址

3、提取其中的数据

4、把数据保存到excel中

以下是本篇文章正文内容

一、准备工作 import requests import re import pandas as pd base_url = 'https://pvp.qq.com/web201605/herolist.shtml' headers = { 'referer': 'https://pvp.qq.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' }

首先导入requests、re、pandas模块,谷歌浏览器搜索王者荣耀官网,找到英雄资料并将网址,头信息中的referer、user-agent写入程序中。

二、具体步骤 1.获取王者荣耀官网所有英雄所在页面的网页的源代码

代码如下:

base_url = 'https://pvp.qq.com/web201605/herolist.shtml' headers = { 'referer': 'https://pvp.qq.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36' } response = requests.get(base_url, headers=headers) response.encoding = 'gbk' r = response.text # print(r)输出的是网页的全部源代码

没有response.encoding = 'gbk'会导致输出结果存在乱码。

2.获取王者荣耀各个英雄的具体网址

 上图右边代码放大如下:

 由图中我们观察到 href="herodetail/155.shtml"中的herodetail/155.shtml即为个个英雄的相关网址,但是经过观察,其中的数字没有啥规律,因此我们使用re正则表达式取出数字,并保存在hero_xuhao_list中,然后利用for循环,构建每个英雄的网址,代码如下:

# 由于英雄的网址为无序,故使用re wangzhi = re.compile(r'


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有