一个简单PDF文件的结构分析

2023-12-27 14:57| 来源: 网络整理| 查看: 265

一个简单的PDF文件结构的分析

Adobe的PDF参考告诉我们一个PDF文件可以通过下面4个方面来理解：

1. 对象, 一个PDF文档是由一组基本数据类型组成的数据结构。

2. 文件（物理结构）, 决定对象是如何存放在一个PDF文件中的，它们是如何被访问的，如何被更新的。这个结构是独立于对象的语义的。

3. 文档结构, 说明一些基本的对象类型是如何来表现PDF文档的成分的：例如页，图片，字体，批注等。

4. 内容流，一个PDF文件内容流包含一系列的指令，描述页面的外观或其他图形实体的外观和文件内容。

但是当时对我来说要看懂这几行字是有很大的困难的，需要了解确切含义，必须看完后面的几十页上百页的内容并且要分析一个实际的PDF文件才能完全领会它的意思。

后来经过长时间的文档阅读，相关开发，并且具体地分析PDF文件后才把PDF文件的语法，文件的解析搞清楚。虽然说学习是痛并快乐着，但是对于当时的我来说真得希望有一个人能够告诉我一个简单的例子，通过一个简单的例子来描述PDF的基本组成，它的解析原理和过程。从我的切身体验来说，从一个初学者的角度出发，最好的方式应该是一个简单的例子。因此我主要将以一个简单的例子并且加以图例来说明PDF的主要特性并给出一个简单的PDF文件的全景。

在继续阅读该文章前，先问自己下面的两个问题：

你了解至少一种文件格式吗？（例如HTML）为什么要学习PDF的相关知识？

如果你对第一个问题的答案为“是”, 并且第二个问题你能给出一个非常明确的答案，那么这篇短文就是为你准备的。否则，如果对任何一种格式都不了解，建议你先了解一下HTML，或XML，你可以从这两种语言里得到很多启发，对学习PDF的构成或研究学习其他格式文件有很大的好处；如果你不清楚你要学习是为了什么，那么我就认为你学习没有目的性和动力，说不定你今天学了以后明天就忘得一干二净，因此也不建议你继续看下去，等到你想清楚了欢迎你来看这则短文。

1．PDF格式和HTML,XML格式：

一个PDF文档从根本上来说是一个8字节序列。其实PDF格式和我们已经熟知的HTML，XML等结构化的文件格式一样，包含有关键字，分隔符，数据等等。

不同的是PDF文件是按照二进制流的方式保存的，而html文件则是可读的文本方式保存的，你可以用文本编辑器分别打开一个html文件和PDF文件比较一下就知道了。XML文件一般只包含数据本身，并没有把如何显示的信息放在其中，因此要显示一个XML文件还需要一个Schema文件才能显示，否则看到的将是所有的字节流，包括所有的标志；HTML包含了数据的同时也包含了一些关于如何显示的信息，但是HTML是按照是不经过压缩的文本存放的，是可读的，你打开一个HTML文件就能知道所有将显示在浏览器里的文字。另外就是HTML不能包含二进制流，它对图像文件的引用都是通过引用外部文件的方式来实现的。

2．PDF规范的发展

PDF规范从1993年到现在，已经有过7个版本，六次版本升级，从最初的pdf1.0版本到现在的PDF1.6, 每次的版本升级都会加入一些新的特性，PDF参考说明书也是从最初的100多页到现在的1000多页，但是PDF文件格式的主要特性还是没有改变，可以这么理解，PDF1.6是PDF1.0的扩展集，学习了PDF1.0以后也能基本上理解PDF1.6的内容，而PDF1.0规范是相对简单的，因此说我选择一个符合PDF1.0规范的最简单的一个PDF文件来进行分析。

PDF规范的6次升级：

1.1 1

【本文地址】

公司简介

联系我们