案例实战：爬虫怎么爬取新闻信息

#案例实战：爬虫怎么爬取新闻信息| 来源: 网络整理| 查看: 265

爬虫可以大量的爬取数据，通过整合数据，可以挖掘有价值的信息，常常应用于电商等行业。许多新手也想通过自学，学会爬虫的编写，实现数据的爬取。今天精灵代理小编跟大家分享爬取新闻信息的案例，至于爬虫怎么爬取新闻信息，就跟小编一起去了解一下。

一、爬取目的

主要是爬取网易新闻，包括新闻标题、作者、来源、发布时间、新闻正文。

二、爬取步骤

1.找出请求地址

我们打开163的网站，我们随意选择一个分类，这里我选的分类是国内新闻。然后鼠标右键点击查看源代码，发现源代码中并没有页面正中的新闻列表。这说明此网页采用的是异步的方式。也就是通过api接口获取的数据。

那么确认了之后可以使用F12打开谷歌浏览器的控制台，点击 Network，我们一直往下拉，发现右侧出现了："… special/00804KVA/cm_guonei_03.js? … "之类的地址，点开Response发现正是我们要找的api接口。

可以看到这些接口的地址都有一定的规律：“cm_guonei_03.js”、“cm_guonei_04.js”，那么就很明显了：

http://temp.163.com/special/00804KVA/cm_guonei_0(*).js

上面的链接也就是我们本次抓取所要请求的地址。

接下来只需要用到的python的两个库：

2.开始编写爬虫

先导入requests、json、BeautifulSoup三个包。requests库就是用来进行网络请求的，说白了就是模拟浏览器来获取资源。由于我们采集的是api接口，它的格式为json，所以要用到json库来解析。BeautifulSoup是用来解析html文档的，可以很方便的帮我们获取指定div的内容。

接着我们定义一个获取指定页码内数据的方法：

案例实战：爬虫怎么爬取新闻信息