手把手 20行Python代码教你批量将PDF文件转为Word格式 您所在的位置:网站首页 免费从网上下载文档的软件 手把手 20行Python代码教你批量将PDF文件转为Word格式

手把手 20行Python代码教你批量将PDF文件转为Word格式

2023-07-13 04:52| 来源: 网络整理| 查看: 265

在日常工作或学习中,经常会遇到这样的无奈:

“小任,你把这个PDF中的文件码出来发我”

艹,倒霉,2M的PDF12点也完不了啊!

很多时候在学习时发现许多文档都是PDF格式,PDF格式却不利于学习使用,因此需要将PDF转换为Word文件,但或许你从网上下载了很多软件,但只能转换前五页(如WPS等),要不就是需要收费,那有没有免费的转换软件呢?

so,菜鸟分析给各位带来了一个免费简单快速的方法,手把手教你用Python批量处理PDF格式文件,获取自己想要的内容,存为word形式。

在实现PDF转Word功能之前,我们需要一个python的编写和运行环境,同时安装好相关的依赖包。 对于python环境,我们推荐使用PyCharm。 在本地电脑环境,anaconda提供了非常便利的安装和部署。

PDF转Word功能所需的依赖包如下:

PDFParser(文档分析器),PDFDocument(文档对象),PDFResourceManager(资源管理器),PDFPageInterpreter(解释器),PDFPageAggregator(聚合器),LAParams(参数分析器)

一、前期准备工作

说明:菜鸟分析是在Windows7下使用python最新的3.6版本

1.安装pdfminer3k模块

安装anaconda后,直接可以通过pip安装

2.若安装不成功,可以试试下面方法

将下载好的pdfminer3k解压到D:或其他合适的盘符,通过win+r 打开运行窗口,输入cmd;

输入D:切换到D盘,cd pdfminer3k(pdf解压的文件夹),输入setup.py install安装软件。

最终显示Finished,则代表成功

二、代码实操

from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDFPageAggregator

每一个HTML文档中,都有一个不可或缺的标签:,在几乎所有的HTML文档里, 我们都可以看到类似下面这段代码:

html{color:#000;overflow-y:scroll;overflow:-moz-scrollbars} body,button,input,select,textarea{font-size:12px;font-family:Arial,sans-serif} h1,h2,h3,h4,h5,h6{font-size:100%} em{font-style:normal} small{font-size:12px} ol,ul{list-style:none} a{text-decoration:none} a:hover{text-decoration:underline} legend{color:#000} fieldset,img{border:0} button,input,select,textarea{font-size:100%} table{border-collapse:collapse;border-spacing:0} img{-ms-interpolation-mode:bicubic} textarea{resize:vertical} .left{float:left} .right{float:right} .overflow{overflow:hidden} .hide{display:none} .block{display:block} .inline{display:inline} .error{color:red;font-size:12px} button,label{cursor:pointer} .clearfix:after{content:'\20';display:block;height:0;clear:both} .clearfix{zoom:1} .clear{clear:both;height:0;line-height:0;font-size:0;visibility:hidden;overflow:hidden} .wordwrap{word-break:break-all;word-wrap:break-word} .s-yahei{font-family:arial,'Microsoft Yahei','微软雅黑'} pre.wordwrap{white-space:pre-wrap} body{text-align:center;background:#fff;width:100%} body,form{position:relative;z-index:0} td{text-align:left} img{border:0} #s_wrap{position:relative;z-index:0;min-width:1000px} #wrapper{height:100%} #head .s-ps-islite{_padding-bottom:370px} #head_wrapper.s-ps-islite{padding-bottom:370px}#head_wrapper.s-ps-islite #s_lm_wrap{bottom:298px;background:0 0!important;filter:none!important}#head_wrapper.s-ps-islite .s_form{position:relative;z-index:1}#head_wrapper.s-ps-islite .fm{position:absolute;bottom:0}#head_wrapper.s-ps-islite .s-p-top{position:absolute;bottom:40px;width:100%;height:181px}#head_wrapper.s-ps-islite #s_lg_img,#head_wrapper.s-ps-islite#s_lg_img_aging,#head_wrapper.s-ps-islite #s_lg_img_new{position:static;margin:33px auto 0 auto}.s_lm_hide{display:none!important}#head_wrapper.s-down #s_lm_wrap{display:none}.s-lite-version #m{padding-top:125px}#s_lg_img,#s_lg_img_aging,#s_lg_img_new{position:absolute;bottom:10px;left:50%;margin-left:-135px}.s-ps-sug table{width:100%;background:#fff;cursor:default}.s-ps-sug td{color:#000;font:14px arial;height:25px;line-height:25px;padding:0 8px}.s-ps-sug td b{color:#000}.s-ps-sug .mo{background:#ebebeb;cursor:pointer}.s-ps-sug .ml{background:#fff}.s-ps-sug td.sug_storage{color:#7a77c8}.s-ps-sug td.sug_storage b{color:#7a77c8}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .mo .sug_del{display:block} .s-ps-sug .sug_ala{border-bottom:1px solid #e6e6e6}

head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有