实战 |
您所在的位置:网站首页 › 网络爬虫视频下载安装 › 实战 |
什么是爬虫?
实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就… 我们再来看下爬虫应该遵循的规则:robots协议是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。一句话概括就是告诉你哪些东西能爬哪些不能爬。 了解了定义和规则,最后就是熟悉爬虫的基本原理了,很简单,作为一名灵魂画手,我画个示意图给你看下就明白了。 理论部分差不多讲完了,有些小朋友估计要嫌我啰嗦了,那就不废话,直接讲实操部分。本次爬虫小项目是应朋友需求,爬取中国木材价格指数网中的红木价格数据,方便撰写红木研究报告。网站长这样: 工具:PyCharm Python版本:Python 3.7 浏览器:Chrome (推荐) 对于第一次写爬虫的朋友可能觉得很麻烦,咱不慌,由浅入深,先爬一页数据试试嘛。 一.爬取一页首先,我们需要简单分析下网页结构,鼠标右键点击检查,然后点击Network,刷新网页,继续点击Name列表中的第一个。我们发现此网站的请求方式为GET,请求头Headers反映用户电脑系统、浏览器版本等信息。 构造请求url,添加头部信息headers即复制前文标记的User-Agent,通过requests.get方法向服务器发送请求,返回html文本。添加headers目的在于告诉服务器,你是真实的人在访问其网站。如果你不添加headers直接访服务器,会在对方服务器显示python在访问,那么,你很可能会被反爬,常见的反爬就是封你ip。 url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB' headers = { 'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36", } response = requests.get(url, headers=headers, timeout=10) html = response.text print(html)我们运行下以上代码,看下效果: 解析完之后,就可以开开心心的提取我们所需要的数据了。方法很多,比如xpath、select、beautiful soup,还有最难的re(正则表达式)。本文爬取的数据结构较为简单,就直接用xpath玩一下吧。 有些小伙伴不会写xpath。 咱们打印一下print(tr),看下效果。 此时,你的心情也许是这样的: 打开下刚生成的wood.csv,长这样: 别开心的太早,你还仅仅是爬了一页数据,人家复制粘贴都比你快。咱们的志向可不在这,在诗和远方,哦不,是秒速爬海量数据。 那么,怎么才能爬取多页数据呢?没错,for循环。 我们再回过头来分析下url: http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB 我们把里面的page.curPage改成2试试,如下: 至此,你只要改变range想爬多少页就爬多少页,开不开心?意不意外? 三.完善爬虫如果仅仅按照以上代码爬虫,很有可能爬了十几页程序就崩了。我就多次遇到过中途报错,导致爬虫失败的情况。好不容易写出的爬虫,怎么说崩就崩呢。 1、复杂度增大 2、组织结构不够清晰 3、可读性差 4、代码冗余 5、可扩展性差 其次,在可能出现报错的地方都加上异常处理。即try…except。 完善之后,截取部分,如下图。限于篇幅,我就不贴所有代码了,需要完整代码的小伙伴可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】。 ![]() 学好 Python 不论是就业还是做副业赚钱都不错,但要学会 Python 还是要有一个学习规划。最后大家分享一份全套的 Python 学习资料,给那些想学习 Python 的小伙伴们一点帮助! 点此免费领取:CSDN大礼包:《python学习路线&全套学习资料》免费分享 Python学习大纲Python所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。 光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。 ![]() |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |