【Python爬虫】从入门到入定:学习资料整理 您所在的位置:网站首页 全国各省市代码身份证 【Python爬虫】从入门到入定:学习资料整理

【Python爬虫】从入门到入定:学习资料整理

2022-05-30 23:08| 来源: 网络整理| 查看: 265

假设你已经看了之前发的这篇写给编程小白的Python学习指南:零基础该怎样入门 对Python已经产生了兴趣,想学习爬虫方向……

首先你要看的,是将不少人带入爬虫坑里的一篇知乎回答,因为写得真的太有趣了👉如何入门 Python 爬虫?

该怎么学

- 理清爬虫的流程:①网页抓取,②解析内容,③存储数据,④数据分析——知道每个步骤里别人用了什么方法。同时知道这些方法的使用场景,有无复用性。

- 找项目,多练。

掌握哪些知识点

【0 Python基础】

爬虫原理:明白一个前提:“框架不变”——网站不同,但是原理都类似,大部分爬虫都是从 发送请求——获得页面——解析页面——下载内容——储存内容 这样的流程来进行,只是用的工具不同

list,dict:用来序列化你爬的东西

切片:用来对爬取的内容进行分割,生成

条件判断(if等):用来解决爬虫过程中哪些要哪些不要的问题

循环和迭代(for ,while ):用来循环,重复爬虫动作

文件读写操作(open,close等):用来读取参数、保存爬下来的内容等

编码常识(codecs等):非常关键,爬虫写熟了以后遇到的各种古怪问题,很多来自于UTF-8 GBK等奇奇怪怪的编码。延伸:字符编码,encode 和 decode,中文编码相关,获取网站的中文显示乱码,非法字符抛出异常,网页使用gzip压缩

掌握Python常用库:urllib,requests等

【1 网页抓取】

网页基础:基本的HTML语言知识,理解网站的发包和收包的概念(POST GET),稍微一点点的js知识,用于理解动态网页

requests:定制requests(传递URL参数,请求头,POST请求,超时)

selenium:自动化控制浏览器

破解反爬策略:伪装浏览器,构造代理池,传入cookies,分析收发包,模拟登陆,修改爬取间隔时间(time.sleep),服务器采集(使用Tor代理服务器/使用动态IP拨号服务器),登录与验证码处理,处理登录表单(cookies),验证码处理(人工处理,OCR处理)

Scrapy:爬虫框架,避免重复造轮子

爬虫提速:并发并行,同步异步,分布式爬虫(Redis),多线程爬虫(Queue),多进程爬虫(Pool+Queue, multiprocessing)

【2 解析页面】

正则表达式(re.match/search/findall)

BeautifulSoup

lxml(XPath)

lambda表达式

PyQuery

【3 数据存储】

基本存储:存储为 txt/CSV

存储到数据库: mysql 数据库,MongoDB 数据库

【4 数据分析】

Numpy:数据分析,类似matlab的模块

Pandas:基于numpy的数据分析模块 

相关教程

1. 抓取网页的含义和URL基本构成

2. 利用urllib2通过指定的URL抓取网页内容

3. 异常的处理和HTTP状态码的分类

4. Opener与Handler的介绍和实例应用

5. urllib2的使用细节与抓站技巧

6. 一个简单的百度贴吧的小爬虫

7. Python中的正则表达式教程

8. 糗事百科的网络爬虫(v0.3)源码及解析(简化更新)

9. 百度贴吧的网络爬虫(v0.4)源码及解析

10. 一个爬虫的诞生全过程(以山东大学绩点运算为例)

11. 亮剑!爬虫框架小抓抓Scrapy闪亮登场!

12. 爬虫框架Scrapy的第一个爬虫示例入门教程

(以上教程基于Python2,如果要在Python3中运行,要变更部分代码)

推荐阅读Python网络数据采集7.8米切尔 (Ryan Mitchell) / 2016 / 人民邮电出版社

想了解和创建爬虫,可以看看这本了,绝对适合新人。有入门,也有进阶。

利用Python进行数据分析8.6Wes McKinney / 2013 / 机械工业出版社

比较偏向数据分析,内容都是围绕着Numpy和Pandas。如果还是不太了解爬虫的话,不建议先读这本。

集体智慧编程8.9西格兰 / 2008 / 东南大学出版社

这本在新手期可以当做“故事集”来看,毕竟你还不会这么深度的应用。里面介绍了很多种你闻所未闻但你身边却经常会出现的算法。比如你知道网易云是怎么进行音乐推荐的吗?豆瓣是怎么推荐你喜欢的内容给你呢?它们怎么判断这是你喜欢的呢?第二章里介绍了几种推荐的方法。

互联网 学习

© 本文版权归 KING 所有,任何形式转载请联系作者。

© 了解版权计划



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有