爬虫的核心步骤 · 爬取你要的数据：爬虫技术

2024-06-10 06:55| 来源: 网络整理| 查看: 265

爬虫的核心步骤

接下来介绍爬虫的原理、过程和步骤，以及相关涉及到的知识。

从原理上来说，写爬虫去爬数据的过程，最核心的就这3步：

下载=download 提取=extract 保存=save

下面详细解释每一步的各种细节：

下载=下载网页做了什么：请求网址或api接口，去下载返回得到什么：html网页或json字符串涉及到（尤其是新手需要学习）Http基本知识 Request Method GET POST 等 Header User-Agent Content-Type Accept Authorization 等 Cookie Body data json Response Status Code Header Cookie Body data json 教程：主流数据格式：JSON 教程：HTTP知识总结如果被爬方（网站，app等）需要用户登录后才能看到数据用技术绕过限制模拟登陆先要抓包分析出登录逻辑再用代码模拟用户登录做了一些反爬措施验证码用技术绕过限制验证码识别（用第三方）打码平台 IP限制 + 抓取频率限制用技术绕过限制 IP代理池设置抓取的间隔时间身份限制 Http的Headers UA=User-Agent 被爬网站所含页面层级很多抓取策略深度优先遍历策略宽度优先遍历策略反向链接数策略 Partial PageRank策略 OPIC策略策略大站优先策略提取数据做了什么：从（返回的）网页（的html，js等）或json中提取得到什么：自己需要的内容涉及到字符编码的问题如果搞不清编码，就容易出现各种乱码问题需要学习相关编码知识教程：字符编码详解与应用【整理Book】Python心得：字符串和字符编码 html的meta charset 编码检测 Python chardet 如果被爬方做了反爬数据加密用技术绕过找到解密的逻辑和方法教程：安卓应用的安全和破解【已解决】尝试破解小花生app安卓apk希望看到api返回的json中的J的解密算法得到明文保存数据做了什么：把数据保存到对应的地方得到什么：包含了我们要的特定格式的数据的文件或数据库保存成不同格式：文件 txt csv / excel 教程：Python心得：操作CSV和Excel 数据库 mysql 教程：主流关系数据库：MySQL mongodb 教程：主流文档型数据库：MongoDB sqlite 等等 crifan.org，使用署名4.0国际(CC BY 4.0)协议发布 all right reserved，powered by Gitbook最后更新： 2020-07-30 19:58:12

【本文地址】

公司简介

联系我们