Python网络爬虫数据采集实战：Requests和Re库

2024-06-07 10:28| 来源: 网络整理| 查看: 265

熟悉爬虫的基本概念之后，我们可以直接开始爬虫实战的学习，先从Python的requests库即re库入手，可以迅速“get”到python爬虫的思想以及流程，并且通过这两个库就可以建立一个完整的爬虫系统。

一、requests库

1.简介

2.入门测试

3.主要方法

二、re库

1.简介

2.入门测试

3.主要方法

一、requests库 1.简介

Requests是用Python语言编写的，基于urllib3来改写的，采用Apache2 Licensed 来源协议的HTTP库。它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。在日常使用中我们绝大部分使用requests库向目标网站发起HTTP请求。

通过上图官网对requests的介绍可知此库的强大之处：Requests是唯一适用于Python的Non-GMO HTTP库，可供人类安全使用。

2.入门测试

我们首先通过代码实例测试一下Requests库的使用情景。首先本文采用配置环境为win10+anaconda3+Python3.7.4，直接在终端运行：

pip install requests

如果出现以下字样即代表安装完成。

urllib 库中的urlopen()方法实际上是以GET方式请求网页，而requests 中相应的方法就是get()。在Python中运行以下代码：

import requests # 以get方式获取百度官网源代码 res = requests.get("https://www.baidu.com") # 获取返回类型 print(type(res)) # 获取状态码 print(res.status_code) # 获取返回源代码内容类型 print(type(res.text)) # 获取前15字符 print((res.text)[:15]) # 获取cookies print(res.cookies)

输出结果为：

200 # 状态码200代表响应正常

【本文地址】

公司简介

联系我们