爬虫小试

2024-07-18 00:06| 来源: 网络整理| 查看: 265

emmm，因为要刷作业的试题（QWQ题目实在是太多了），在机缘巧合之下竟发现老师上传的题目全部是某网站上的，于是乎哈哈哈，爬下来做题库方便查询（Ctrl+F），下面进入正题，爬

使用到的模块 requests Xpath（lxml） docx（python-docx）

首先给出目标网页的URL：http://www.manongjc.com/detail/7-tyzzyvdyjzszbif.html 然后，肯定是让咱瞧瞧这个网页的真面目（源码结构）是什么，操作很简单，我使用的是Google浏览器开发者工具，源码部分如下图所示

在这里插入图片描述很显然，我们需要的试题都在

里知道了需要的东西在哪，接下来就好办了，问题是怎么获取到它了

先使用requests请求获得网页的HTML文rs = requests.get(url=url, headers=headers)

进一步，对获取得到的rs进行处理解析，这里使用到Xpath的知识

root = etree.HTML(rs.content) texts = root.xpath('//div[@class="article-content"]/p/text()')

我们在控制台看看texts有没有成功解析出来

【本文地址】

公司简介

联系我们