每个PDF文件都有个唯一的字符串与该文件对应,我们可以把它看作是该PDF文件的身份证号码,其字符串保存在文件的trailer字典中。用文本编辑器打开一个PDF文件,可以看到:
<</Size433/Root 1 0 R/Info 3 0 R/ID[<2C12621CBD44224CA14C29823A6B31F4><2C12621CBD44224CA14C29823A6B31F4>]>> 其中红色部分就是文件的ID。ID是一个数组,有两个元素,都是32字节长度, 而且这两个元素的内容完全一样。第一个元素是不变的,而第二个元素是会随着PDF文件的修订而改变的。我对该文件在ACROBAT里做了修改,trailer字典变成如下: <</Size433/Root 1 0 R/Info 3 0 R/ID[<2C12621CBD44224CA14C29823A6B31F4><BC67F3302346184DA5CCE275D6BD836D>]>> 我们会发现ID数组的第二个元素发生了变化,说明该PDF文件在创建以后已经被修改过了。 如何获得PDF文件的身份证号码?
那这个ID是如何生成的呢?PDF规范没有作限定,如果你要生成一个PDF文件,那么你可以定义自己的方法来生成该ID,当然要确保该ID的唯一性。 因此一般该ID是通过文件的内容,文件的生成或修改日期,甚至计算机的硬件信息等来产生的HASH序列。 PDF文件身份证号码的作用
PDF中的ID对一些文档的处理流程格外有用,如果我们要管理大量的文件,我们必须建立一个文件信息表,对于每个文件都需要设置一个唯一的ID,这个ID一般是流水号。这种方式系统的耦合性非常大而且很容易造成文件的重复和空间的浪费。 举个例子,我们有两个这样的系统,每个系统都独立地维护一个数据库,有可能我们会在这两个系统中录入一些相同的文件,但是他们的ID号不同,因此说如果要将这两个数据库合并(也不可能合并),那么势必会造成资源的极大浪费。 一般来我们的文档系统都有服务端和客户浏览器。如果利用PDF文件自身携带的ID来作为唯一的标识,那么就不必要再传送额外的信息了,PDF浏览器可以通过该PDF文件中的ID来和服务器端进行一些交互和接受服务器端的管理,极大地方便了文档的处理流程。 |