Python编程:读取pdf、pptx、docx、xlsx文件的页数 您所在的位置:网站首页 pdf页码统计 Python编程:读取pdf、pptx、docx、xlsx文件的页数

Python编程:读取pdf、pptx、docx、xlsx文件的页数

2023-09-07 04:49| 来源: 网络整理| 查看: 265

pdf

安装工具

pip install pdfplumber 代码示例 import pdfplumber from pdfminer.pdfparser import PDFSyntaxError def get_pdf_page(pdf_path): try: f = pdfplumber.open(pdf_path) page = len(f.pages) except PDFSyntaxError: page = 0 return page pptx

安装工具

pip install python-pptx 代码示例 from pptx import Presentation def get_pptx_page(pptx_path): try: p = Presentation(pptx_path) page = len(p.slides) except KeyError: page = 0 return page docx、xlsx

Word是流动分页的,文件内容本身并不存储分页结果。具体分页时断在哪里、最后分出多少页,都需要现场渲染所有的图文内容之后才能确定。

Word文件中仅包含了一行一行的文本,与页面设置中指定的页面尺寸。

Word每次打开文件时都会一行一行“摆放”文本数据,发现一页装不下了自动新开一页

所以,读取页数是不对的

参考

如何在 Linux 上使用 Python 读取 word 文件信息(如页数)?Python编程:pypdf2和pdfplumber获取pdf文件的页数


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有