绝对干货!百度文档 用python一键下载 您所在的位置:网站首页 python百度文库下载工具 绝对干货!百度文档 用python一键下载

绝对干货!百度文档 用python一键下载

2024-06-27 03:44| 来源: 网络整理| 查看: 265

百度文库下载需要券,或者vip才能下载 用python一键免费下载度文档

Vip价格高,偶尔下载一次不划算。

用python一键免费下载度文档。

不下载复制?不好意思复制也需要vip否则只能一次复制两行。

如何才能以最低成本获取到百度文库里的文档内容呢?

推荐 :020 持续更新,精品小圈子每日都有新内容,干货浓度极高。 结实人脉、讨论技术 你想要的这里都有! 抢先入群,跑赢同龄人!(入群无需任何费用) 点击此处,与Python开发大牛一起交流学习。 群号:745895701 申请即送: Python软件安装包,Python实战教程 资料免费领取,包括 Python基础学习、进阶学习、爬虫、人工智能、自动化运维、自动化测试等

当然是用Python啦!

接下来教大家如何使用Python免费下载百度文档。

由于百度文库的内容是通过网页展示的,那我们猜他是通过后台加载进来的。可以先通过Ctrl+u查看HTML源码,看源码里面是否有文档数据。很遗憾HTML源码里面并没有文档内容。

确定不是通过HTML加载的之后,我们就可以大胆的猜测他是通过json异步加载。所以通过F12打开开发者管理工具network抓包,查看页面加载过程请求的URL。这里会有大量的请求,但是我们仔细观察会发现有一个0.json的URL返回的数据就是文档的文本数据。

拿到请求文档数据的URL后需要确定URL参数。通过查看headers确定请求方式为GET请求。请求参数里x-bce-range和token是变动的,其他都是固定不变。

token这个东西很多时候都会写入到HTML页面里去,用途是防csrf攻击。但是百度文档里面的token有什么用我们不用关心,重要的是这个token那里来。去HTML源代码里查看这两个变量能不能获取到。

果然,在HTML源码里有一段js代码,其中就包含了所有请求文档的URL。看起来有点像,但还是不一样啊!其实这里是包含了转移符 \ ,还有一个比较奇怪的 \x22 其实是一个双引号。把这段不规范的json数据提取出来替换掉 \ 和 \x22就是一个标准的json格式数据。

提取文档数据URL代码实现

拿到URL之后继续发送请求获取文档数据,文档数据是分段保存到json里面的,json里面的数据如下图所示。

字段解释:

c: 数据 p: 位置 r: 暂时不确定作用 s: 字体样式 t: 数据格式(word文本,pic图片) ps: 样式,_enter:1 表示换行,同一段的文本ps值为空

由于图片加载比较特殊,有时候可能通过一个请求加载两张图片,不好确定图片的位置,所以这里暂且不考虑图片,我们只抓取文本。

到这里就已经可以把一个百度文档的文本内容完整下载下来。

网上随机选一篇文档来测试效果,纯文本的文档效果贼好。缺点就是不能同时下载图片插入到word里面去。

好啦,本次文章就先介绍到这里,想要更多学习python的资料请私聊我哦,关注我,带你飞(▽)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有