假设我们弄到了一本PDF,这个PDF如果是由Word或WPS转化而来,其中的标题也就代表了目录,我们可以用acrobat PDF中的AutuBookmark插件实现自动识别标题为目录的方法来添加书签。
这是完美的一种情况,因为即使PDF最初确实是从Word或WPS转化而来,也有可能识别不出来。因为你得到的这个版本的PDF,可能已经经过了很多次的压缩、格式转换、特殊处理,导致某些标题/目录层级信息丢失。
另一个方面,网上很多PDF都是扫描版本的,特别是中文图书;并且并不是所有人都喜欢用acrobat PDF软件(有些人喜欢用WPS PDF、福昕PDF、万兴PDF等等)。
如果你的PDF中没有目录,或者不属于图书的范畴,那么就不属于本文适用的范围。
如上所述:
在网购平台、数字图书售卖网站或者类似“豆瓣”这种图书推荐网站上,找得到图书的目录+页码信息,就可以直接利用相关目录文字进行后续处理;这种应该是最为常见的情况。
但是后来,我实际去做的时候,发现有些网站中只提供目录不提供页码,比如豆瓣、京东。
相比之下,淘宝就比较良心,大部分的目录都有页码。这样有一个好处就是你知道这一小节究竟写了多少页,避免有些作者草草了事花一两页写完明明很复杂的一个专题,你还不知道的情况。
于是我们借助淘宝获得了图书的书签信息。
将上述文本粘贴进PdgCntEditor软件,我们可以发现页码前基本都是空格。
而PdgCntEditor软件的格式要求是页码前是一个缩进才能识别成功,因此我们需要将空格转化成缩进。
这时候我们就需要用到正则表达式的功能。
在正则表达式中我们输入【 ([0-9]+)$】,注意最前面有一个手动空格(因为PdgCntEditor不支持诸如/s、/t、/p等通配符);其中()表示部分替换分组,[0-9]表示任意数字,+表示一个或多个数字,$表示匹配句尾。
在替换为输入框中是【 $1】,注意最前面有一个手动缩进;其中$1表示部分替换第1个分组的内容保留。
为了避免出错,我们可以点击如上图所示的「测试」按钮,先对正则表达式进行验证。
单击「替换」,空格即变成了缩进,此时此刻你已经可以将书签文本应用到PDF中去了,只是没有分级而已。
如果你想要继续分级,那么你接着往下看!
首先对二级目录的前面加一个缩进。
在正则表达式中我们输入【(^[0-9]+.[0-9]+) 】,注意最后面有一个手动空格,这是匹配二级目录;其中()表示部分替换分组,[0-9]表示任意数字,+表示一个或多个数字,^表示匹配句首。
在替换为输入框中是【 $1】,注意最前面有一个手动缩进;其中$1表示部分替换第1个分组的内容保留。
而后,在三级目录的前面加两个缩进。
在正则表达式中我们输入【(^[0-9]+.[0-9]+.[0-9]+) 】,注意最后面有一个手动空格,这是匹配三级目录。
在替换为输入框中是【 $1】,注意最前面有两个手动缩进;其中$1表示部分替换第1个分组的内容保留。
由于这个PDF最多只有三级目录,因此处理到这一步就结束了。小伙伴们如果看到更多级目录,按照二级到三级的转换思路进行递归即可。
第三部分的思路,来自这篇记一次正则表达式实战,给pdf加目录,虽然这篇文章是一篇爬虫文,源头也已经消失在互联网大海中,但是也给我带来了莫大的精神灵感。
而这篇对正则表达式部分替换的介绍也给我知识上的补充,谢谢上述两篇文章的作者!!
其实,最初我是看了pdf生成目录-如何给没有目录的pdf手动添加目录中的通过Vim编辑器中的命令来快速编辑书签文本使其符合PdgCntEditor的格式要求。
- 三级目录添加两个tab。命令
%s/\v^\ze(\d+\.\d+\.)/\t\t/
- 给二级目录添加一个缩进,命令
%s/\v^\ze(\d+\.\d+)/\t/
- 将目录名和页码中间的字符串替换为 Tab,命令
%s/\v(\s\.)+\s/\t/
- 页码重定位,加上一个偏移量,命令
%s/\d\+$/\=submatch(0)+22/
- 保存,或使用命令:wq保存并退出
但是,我发现(其实作者也提到了)第3步操作失败,由于我对Vim命令还很陌生,所以就没再继续探究了。
不得不说这是一个很棒的方法,因为你只需要依次执行几条命令就可以;相比我上面在第三节介绍的方法,可以节省一半的步骤(只要你对Vim熟悉)。
后面我有时间,会补充和完善一下上面大牛提出的方法。
上一篇:皕杰报表使用字体和部署后添加字体
下一篇:PowerDesigner 设置