什么是python爬虫,http代理ip起到的作用是什么? 您所在的位置:网站首页 python爬虫能爬什么 什么是python爬虫,http代理ip起到的作用是什么?

什么是python爬虫,http代理ip起到的作用是什么?

#什么是python爬虫,http代理ip起到的作用是什么?| 来源: 网络整理| 查看: 265

爬虫又称网络蜘蛛、网络机器人,爬虫程序能模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片、视频、音频) 等爬取到本地,进而提取自己需要的数据,并存放起来使用,每一个程序都有自己的规则,网络爬虫也不例外,它会根据人们施加的规则去采集信息,这些规则为网络爬虫算法,根据使用者的目的,爬虫可以实现不同的功能,但所有爬虫的本质,都是方便人们在海量的互联网信息中找到并下载到自己要的那一类,提升信息获取效率。

单一 IP 访问频率过高或访问次数过多就可能会被目标网站限制访问或直接拉小黑屋,需要切换代理 IP 才能继续进行数据采集,可以使用隧道代理,能自动切换代理 IP,更为稳定便捷,以下是对部分代理供应商的 HTTP 隧道代理测试:

一、测试环境系统:CentOS Linux release 7.9.2009 (Core)语言:Python 2.7gevent==1.1.2requests==2.18.4pymysql==0.9.3prettytable==1.0.1toml==0.10.2数据库:MySQL二、测试对象

九家代理供应商的隧道代理产品:

快代理隧道动态版阿布云隧道动态版青果云隧道动态版小象代理隧道动态版品易代理隧道动态版极光代理隧道动态版无忧代理隧道动态版蜻蜓代理隧道动态版熊猫代理隧道动态版三、测试网站

以下测试网站除了少部分验证 header 中某些参数以外,没有其他反爬,具体表现是同一个 IP 频繁请求会出现验证码、403、跳转登录、返回 JS 二次设置 Cookie 等情况,测试中已排除其他反爬,保证了测试结果只与 IP 的质量有关:

小红书:社区精选,随机文章详情页:xiaohongshu.com/discove亚马逊:随机商品详情页:amazon.com/product-revi天眼查:随机公司详情页:tianyancha.com/company/58同城:招聘搜索结果页:bd.58.com/job/pn1/?安居客:二手房随机小区:beijing.anjuke.com/comm拼多多:网页端随机商品分类详细信息接口:yangkeduo.com/proxy/api百度贴吧:首页:tieba.baidu.com/四、测试指标

数据量:

统一 50 并发,测试时间 2 天每个代理商累计请求量均 > 50 万,部分 > 300 万

主要指标解释:

请求成功:指成功请求 URL 并拿到响应,不管是否返回的是反爬内容业务成功:指在请求成功的前提下,拿到正确的数据,连接失败、超时、被反爬均视为失败反爬识别:出现验证码、403、跳转登录等情况请求超时:timeout = 10代理报错:基本上是 502、503、SSLError 报错五、数据分析总体数据统计

由上表可知(排名分先后,从左到右):

请求成功率:1. 小象 2. 快代理 3. 青果云业务成功率:1. 快代理 2. 青果云 3. 小象反爬识别率:1. 蜻蜓 2. 阿布云 3. 快代理请求超时占比:1. 阿布云 2. 快代理 = 小象 3. 蜻蜓代理报错占比:1. 青果云 2. 快代理 3. 小象平均响应(s):1. 快代理 2. 阿布云 3. 青果云六 、总结



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有