python爬虫 多线程 爬取网站排行榜上的所有小说 |
您所在的位置:网站首页 › 楔子的所有小说 › python爬虫 多线程 爬取网站排行榜上的所有小说 |
python爬虫,多线程批量爬取多部小说
欢迎阅读环境获取排行榜top上的所有小说地址分析排行榜top100页面的html,获取所有小说的url遍历小说列表url到生成txt多线程启动爬取任务完整代码
写在最后
欢迎阅读
忽然有兴趣想试试把某网络小说网站上所有的小说都给爬下来。就拿17K小说网开刀,先把这个网站免费排行榜上的所有小说都弄下来。 之前发过贴,如何将一本小说爬取出来,以及简单规避网站安全系统。这次爬取多本的话,无非是在最外层再加一个循环,然后以多线程的方式启动,对每一部小说进行爬取,就不描述的太具体了。 完整代码在最后。 环境依然是python3+pycharm,安装第三方库requests、threading import os import requests import re import time import random import threading 获取排行榜top上的所有小说地址17K小说免费排行榜地址: https://www.17k.com/top/refactor/top100/06_vipclick/06_click_freeBook_top_100_pc.html. 依然是先写好方法,获取html。最好是将html打印到本地,便于观察html,找出小说url的正则规律 #获取网页html def get_htmlcode(url): try: urlhtml = requests.get(url) htmlcode = urlhtml.content # path = open('Txt/html.txt','wb') # path.write(htmlcode) # path.close() except: htmlcode = 'error' return htmlcode加一个try是为了避免网站服务出现问题导致程序跑不过。 分析排行榜top100页面的html,获取所有小说的url通过对html进行分析,以 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |