手把手教你如何用Python爬取网站文本信息 | 您所在的位置:网站首页 › 手把手教你使用python抓取并存储网页数据最详细的爬虫教程 › 手把手教你如何用Python爬取网站文本信息 |
提取网页源代码——Requests 工具包
在我们提取网络信息之前,我们必须将网页的源代码进行提取,Requests工具包现在可以说是最好用和最普及的静态网页爬虫工具,它是由大神Kenneth Reitz所搭建的。在Requests的官方介绍里,Requests所遵守的哲学理念是: 1.Beautiful is better than ugly. (美胜过丑) 2.Explicit is better than implicit.(清晰胜过隐匿) 3.Simple is better than complex.(简单胜过复杂) 4.Complex is better than complicated.(复杂胜过繁琐) 5.Readability counts.(可读性很重要) Requests工具包的使用非常简单,最主要使用的函数为requests.get(url),其中参数url就是我们想提取源代码的网页,再通过requests.get(url).text将页面转换为字符串,就可以供我们使用了。 信息提取——Xpath我们普通的网页一般都是XML文档格式,当我们想提取里面的内容时,我们需要借助Xpath来分解其中的格式,提取我们想要的内容。在了解Xpath之前我们需要知道四个基本概念:节点、元素、属性、文本 。我们来看一个例子: ''' 更多Python学习资料以及源码教程资料,可以在群1136201545免费获取 ''' Harry Potter J K. Rowling 2005 29.99这就是一个网页的源码,其中 是文档节点, J K. Rowling 是元素节点, lang=“en” 是属性节点。 J K. Rowling 、2005 和29.99是文本(文本通常就是我们想爬取的内容)。 实例分享——爬取豆瓣电影的信息接下来我们做一个很简单的实例分享,我们想爬取在豆瓣网上的电影《超时空同居》的导演和演员信息。 首先我们找到电影的URL: 同理,导演的名字所对应的节点名为a,属性都为rel=" v:directedBy",我们同样可以通过这个定位找到相应的文本:
最后我们得到一个字典集的结果: {'电影': '超时空同居 (豆瓣)', '导演': ['苏伦'], '演员': ['雷佳音', '佟丽娅', '张衣', '于和伟', '王正佳', '陶虹', '李念', '李光洁', '杨玏', '范明', '徐峥', '杨迪', '方龄', '陈昊']} 实例分享2——爬取带有json格式豆瓣电影的信息首先,json是一种轻量级的数据交换格式,它简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。 在我们爬虫的过程中,我们有时候可以在开发者模式返回的网页里找到完整的json格式的数据,这时候我们就可以运用requests包里的json函数将爬取到的原文本转化格式,从而方便我们提取内容。我们还是拿豆瓣电影举例: |
CopyRight 2018-2019 实验室设备网 版权所有 |