Python网络爬虫数据采集实战:Requests和Re库 您所在的位置:网站首页 网络爬虫的分类和区别 Python网络爬虫数据采集实战:Requests和Re库

Python网络爬虫数据采集实战:Requests和Re库

2024-06-07 10:28| 来源: 网络整理| 查看: 265

​    熟悉爬虫的基本概念之后,我们可以直接开始爬虫实战的学习,先从Python的requests库即re库入手,可以迅速“get”到python爬虫的思想以及流程,并且通过这两个库就可以建立一个完整的爬虫系统。

 

目录

一、requests库

    1.简介

    2.入门测试

    3.主要方法

二、re库

    1.简介

    2.入门测试

    3.主要方法

一、requests库     1.简介

    Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库。它比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。在日常使用中我们绝大部分使用requests库向目标网站发起HTTP请求。

    通过上图官网对requests的介绍可知此库的强大之处:Requests是唯一适用于Python的Non-GMO HTTP库,可供人类安全使用。

    2.入门测试

    我们首先通过代码实例测试一下Requests库的使用情景。首先本文采用配置环境为win10+anaconda3+Python3.7.4,直接在终端运行:

pip install requests

    如果出现以下字样即代表安装完成。

    urllib 库中的urlopen()方法实际上是以GET方式请求网页,而requests 中相应的方法就是get()。在Python中运行以下代码:

import requests # 以get方式获取百度官网源代码 res = requests.get("https://www.baidu.com") # 获取返回类型 print(type(res)) # 获取状态码 print(res.status_code) # 获取返回源代码内容类型 print(type(res.text)) # 获取前15字符 print((res.text)[:15]) # 获取cookies print(res.cookies)

输出结果为:

200 # 状态码200代表响应正常


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有