1109 - PDF 标注导出,从入门到弃坑

这两天,研究了如果导出 PDF 标注。没搞定,大致列一些关键的点,供大家参考:

  • PDF 标准是 Adobe 牵头搞了,标准又老又长,一般还是别看了
  • Apple 提供了 PDFKit;不过,十几年没更新了,功能比较弱
    • 核心的,在解析标注文本时,会出现 Cmap 错误,但却没有任何可设置的地方
    • 另外,WWDC 2017 新出了 PDFKit for iOS,没去研究,估计重点在于展示,不在于编辑
  • 对于第三方 PDF SDK:
    • 有少量免费、或开源的,最知名的是 Skim;可惜的是,Skim 也无法解析标注文本,尤其是英文之外的文字、字体
    • 而更大部分,则是商业 SDK;效果我不好说,因为动不动 $1000 一年的授权,试不起
  • PDF Expert 果然还是厉害,在试过的这些产品中,最强悍;当然,价格也最彪悍

总的来看,PDF 还是一小撮玩家在玩的小游戏。既得利益者,牢牢把握着市场;后来者,不太可能进入并有所作为。标准本身,也缺乏与时俱进的动力。我并不看好。

不过,我还是基于 Apple 的 PDFKit 做了个简单的小工具,可以将 PDF 中的标注导出为 csv 文本。需要的朋友,可以单独联系我。