python爬取笔趣阁小说(附源码) |
您所在的位置:网站首页 › 笔趣阁怎么导入本地小说 › python爬取笔趣阁小说(附源码) |
python爬取笔趣阁小说
文章目录
python爬取笔趣阁小说
前言
一、获取小说目录结构
获取目录连接
请求代码
解析目录
XPath
tqdm
解析
二、获取小说章节结构
请求代码
解析章节
代码
重构代码
总结
前言
通过学习爬取电子书,了解python爬虫的魅力! 一、获取小说目录结构 获取目录连接
url = “http://www.paoshuzw.com/13/13959/” 请求代码 import requests url = "http://www.paoshuzw.com/13/13959/" res = requests.get(url=url) with open('圣墟.html','a',encoding='utf-8') as f: f.write(res.content.decode('utf-8'))代码注解: requests.get(url=url) #请求当前连接 res.content.decode(‘utf-8’) #防止中文字符乱码 解析目录小说目录连接布局 点开任意章节
url:www.paoshuzw.com+/13/13959/5939025.html #章节连接格式 XPathXPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基于XML的树状结构,有不同类型的节点,包括元素节点,属性节点和文本节点,提供在数据结构树中找寻节点的能力。 XPath基本操作:https://blog.csdn.net/Yuyu920716/article/details/113108444 tqdmTqdm在阿拉伯语表示进步,在西班牙语中表示我非常爱你。是一个快速,可扩展的Python进度条,可以在Python长循环中添加一个进度提示信息,用户只需要封装任意的迭代器tqdm(iterator)即可完成进度条。 tqdm基本操作:https://blog.csdn.net/feiyang5260/article/details/100050539 解析 import requests import lxml from lxml import etree url = "http://www.paoshuzw.com/13/13959/" re |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |