Java实现PDF转txt文件(支持分页) 您所在的位置:网站首页 怎么把pdf转成文字 Java实现PDF转txt文件(支持分页)

Java实现PDF转txt文件(支持分页)

2024-05-28 15:11| 来源: 网络整理| 查看: 265

项目需要,在网上查了不少相关的文章,但都不够完整,自己重新整理了一份,java实现pdf分页转txt格式的文件方法有好几种,这里整理了两个比较常用的方法,生成以下两个工具类可以直接调用 **

1.使用itextpdf分页解析pdf文件

**

导入相关jar包

com.itextpdf itextpdf 5.5.13

工具类代码如下:

public class PdfFileUtil { /** * 将PDF文件分页解析为txt格式文件 * @param fileName * @throws IOException */ public static void getPdfFileText(String fileName) throws IOException { PdfReader reader = new PdfReader(fileName); PdfReaderContentParser parser = new PdfReaderContentParser(reader); TextExtractionStrategy strategy; List pdfTextList = new ArrayList(); System.out.println("总共有"+reader.getNumberOfPages()+"页"); for (int i = 0; i String filepath ="E:\\test\\txt\\测试第"+pageSize+"页.txt"; // 将文本写入文本文件 writer = new FileWriter(filepath); writer.write(pdfTextList.get(i)); writer.flush(); } catch ( IOException e) { e.printStackTrace(); } } } public static void main(String[] args) { String fileName = "E:\\test\\测试.pdf"; try { getPdfFileText(fileName); } catch (IOException e) { e.printStackTrace(); } } } 2.使用spire分页解析pdf文件转成TXT文件

导入相关jar包

e-iceblue spire.pdf.free 2.2.2

工具类代码

public class PdfReaderUtil { public static void readPdf(String file) throws Exception { //创建PdfDocument实例 PdfDocument doc = new PdfDocument(); //加载PDF文件 doc.loadFromFile(file); PdfPageBase page; //遍历PDF页面,获取每个页面的文本并添加到StringBuilder对象 for (int i = 0; i //将StringBuilder对象中的文本写入到文本文件 String filepath = "E:\\test\\txt\\Spire\\测试第" + pageSize + "页.txt"; writer = new FileWriter(filepath); writer.write(page.extractText(true).toString()); writer.flush(); } catch (IOException e) { e.printStackTrace(); } } doc.close(); } /** * 测试 * @param args */ public static void main(String[] args) { String fileName = "E:\\test\\测试.pdf"; try { readPdf(fileName); } catch (Exception e) { e.printStackTrace(); } } }


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有