【数据提取】 Python 提取PDF中的文字和图片

您所在的位置：网站首页 › 提取pdf中的文字到指定表格怎么弄 › 【数据提取】 Python 提取PDF中的文字和图片

【数据提取】 Python 提取PDF中的文字和图片

2024-07-07 18:58:28| 来源: 网络整理| 查看: 265

从PDF中提取内容能帮助我们获取文件中的信息，以便进行进一步的分析和处理。此外，在遇到类似项目时，提取出来的文本或图片也能再次利用。要使用Python从PDF文件中提取文本和图片，可以借助 Spire.PDF for Python 这个第三方库。具体操作方法查阅下文。

安装 Spire.PDF for Python

使用 Python 提取PDF文本

使用 Python 提取PDF页面中指定矩形区域的文本

使用 Python 提取PDF图片

安装 Spire.PDF for Python

本文中用到的Python PDF库支持在各种 Python 程序中创建、读取、编辑、转换和保存 PDF 文档。要安装此产品，使用以下 pip 命令。

pip install Spire.PDF

详细安装教程点击：如何在 VS Code 中安装 Spire.PDF for Python

使用 Python 提取PDF文本

Spire.PDF for Python 提供的 PdfPageBase.ExtractText() 方法能提取一个 PDF 页面中文本。根据你的具体需求，你可以选择仅提取某页中的文本，或者遍历所有页面以提取整个PDF文件中的文本。完整Python代码如下：

from spire.pdf import * from spire.pdf.common import * # 创建PdfDocument类的实例 pdf = PdfDocument() # 加载PDF文档 pdf.LoadFromFile("大数据.pdf") # 创建一个TXT文件来保存提取的文本 extractedText = open("Output/提取文本.txt", "w", encoding="utf-8") # 遍历文档的每一页 for i in range(pdf.Pages.Count): # 获取页面 page = pdf.Pages.get_Item(i) # 从页面提取文本 text = page.ExtractText() # 将文本写入TXT文件 extractedText.write(text + "\n") extractedText.close() pdf.Close()

提取结果：

使用 Python 提取PDF页面中指定矩形区域的文本

如果你只需要提取某个PDF页面中指定区域的文本，你可以指定一个矩形范围然后使用 PdfPageBase.ExtractText(RectangleF rectangleF) 方法提取其中的文本内容。完整Python代码如下：

from spire.pdf import * from spire.pdf.common import * # 创建PdfDocument类的对象 pdf = PdfDocument() # 加载PDF文档 pdf.LoadFromFile("大数据.pdf") # 获取第一页 page = pdf.Pages.get_Item(0) # 从页面的指定矩形区域提取文本 text = page.ExtractText(RectangleF(0.0, 400.0, 770.0, 180.0)) # 将提取的文本保存到TXT文件中 extractedText = open("Output/PDF文本.txt", "w", encoding="utf-8") extractedText.write(text) extractedText.close() pdf.Close()

提取结果：

使用 Python 提取PDF图片

除了提取文本外，Spire.PDF for Python 还提供了 PdfPageBase.ExtractImages() 方法来提取PDF文件中的图片。要提取一个PDF文件中的所有图片并保存到指定路径，参考以下Python代码。

from spire.pdf import * from spire.pdf.common import * # 创建PdfDocument类的实例 pdf = PdfDocument() # 加载PDF文档 pdf.LoadFromFile("大数据.pdf") # 创建一个列表来存储图篇 images = [] # 遍历文档的每一页 for i in range(pdf.Pages.Count): # 获取页面 page = pdf.Pages.get_Item(i) # 从页面提取图片并存储在创建的列表中 for img in page.ExtractImages(): images.append(img) # 保存图像 i = 0 for image in images: i += 1 image.Save("Output/图片/图片-{0:d}.png".format(i), ImageFormat.get_Png()) pdf.Close()

提取结果：

通过Spire.PDF for Python库提供的以上示例，就能轻松实现PDF文件内容的提取。如果对该Python库感兴趣，可点击了解更多功能：Spire.PDF for Python 中文教程

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

【数据提取】 Python 提取PDF中的文字和图片

【数据提取】 Python 提取PDF中的文字和图片

今日新闻

点击排行

推荐新闻

图片新闻

专题文章