Python实现某du文库vip内容下载,保存成PDF 您所在的位置:网站首页 python下载百度文库文档工具 Python实现某du文库vip内容下载,保存成PDF

Python实现某du文库vip内容下载,保存成PDF

2024-07-15 20:07| 来源: 网络整理| 查看: 265

前言

是谁,是谁在网页上搜索往年考试卷题+答案的时候只能阅读前两页的选择题,是谁在搜几千字的文档资料只能看25%,是谁在百度文库找七找八的时候所有的东西都要付费才能继续看…

我先说 是我自己

我又不经常用,只有偶尔需要看看,还要我掏钱包,我说不行,绝对不行

什么都行 谈钱不行

咱没钱,咱有技术,直接让python帮我

今天就来分享下 👇

用Python实现某du文库vip内容下载, 保存到word文档

前期准备 环境使用 python 3.8 pycharm 模块使用 requests >>> 数据请求模块 pip install requests docx >>> 文档保存 pip install python-docx re 内置模块 不需要安装 ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取 代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求图片数据包:

获取数据, 获取服务器返回响应数据 开发者工具: response

解析数据, 提取图片链接地址

保存数据, 把图片内容保存到本地文件夹

做文字识别, 识别文字内容

把文字数据信息, 保存word文档里面

导入数据请求模块 import requests 导入格式化输出模块 from pprint import pprint 导入base64 import base64 导入os模块 import os 导入文档模块 from docx import Document 导入正则 import re 导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求 长链接, 可以分段写 问号前面: url链接 问号后面: 请求参数/查询参数

源码.点击.领取.即可

# 确定请求链接 url = 'https://*****.com/gsearch/rec/pcviewdocrec' # 请求参数 data = { 'docId': docId, 'query': name, 'recPositions': '' } # 请求头 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36' } #发送请求 response = requests.get(url=url, params=data, headers=headers) #


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有