关于不能编辑类PDF文档的OCR问题

毛小驴 发表于 2020-9-3 17:41:29

本帖最后由毛小驴于 2020-9-3 17:41 编辑

看到论坛上面有许多大神的神作，有的是利用现成的数据文件进行繁复的编辑、美化，但是有的只能利用一些原始的文档文件进行扫描进而OCR，再进行繁琐的校对，对于像我这样的小白来说，光前面这些文档OCR就已经玩不转了，更不用说还有后面的校对，校对完了以后还要进行样式调整等等繁重的工作，这样一想，能制作出一部精良的词典何其艰辛，所以有的好词典进行有偿分享也是理所当然的事儿，我自己也在论文上买了好多词典，用起来自然心喜。
今天突然想到一个OCR PDF文档的办法：利用Adobe Acrobat Pro DC进行自动识别，其实方法很简单，直接打开pdf文档，在文件里面找到“导出到”，里面有几个选项，例如word了、HTML了、纯文档了，都是可以的，而且我用论坛上汉风宋韵发的语法文档（https://www.pdawiki.com/forum/thread-41454-1-1.html）试了下，结果竟然是出奇的好。
贴图为证，上面是原始pdf文档，下面的是转化后的word文档，可以对比一下，结果很理想，平时一些其它不可编辑文档也是可以这样转化为word格式。当然，有的大佬也许有更好更便利的ocr方法，但是那个可能对一枚小白来说不具有操作性，这个就简单多了。{:4_97:}

999阿彌陀佛 发表于 2020-9-4 09:50:24

即使是99%的正确率，也要全文校对一通。。。

bob123 发表于 2020-9-3 18:04:04

感谢分享经验。表面看着不错，可问题还是在于校对耗时耗力。。

klwo2 发表于 2020-9-3 18:52:00

{:4_96:}出奇得好

因为你选的文档是语法书呀……

毛小驴 发表于 2020-9-3 19:43:22

klwo2 发表于 2020-9-3 18:52
出奇得好

因为你选的文档是语法书呀……

K大说的对，这种OCR识别针对特殊字符确实是识别率低，而且乱码也多{:4_91:}，这个也就是给大家OCR一般的文档使用使用，复杂点的还得靠专业的来弄{:4_105:}

言叶之庭 发表于 2020-9-3 19:47:09

OCR工具挺多的，ABBYY、福昕，关键是校对。

wjl 发表于 2020-9-4 10:03:23

人工校对的任务有没有自动化工具来完成呀

毛小驴 发表于 2020-9-4 16:02:48

wjl 发表于 2020-9-4 10:03
人工校对的任务有没有自动化工具来完成呀

这个还真的是不知道，因为没有制作过，可以请教一下 klwo2、999阿彌陀佛等大神{:11_379:}，楼上999阿彌陀佛大大也说了，即使是99%的正确率，也要全文校对一遍的，很多工具虽然自动化越来越精确，但是难免碰到一些特殊的字符了啥的，这个可能还是需要人工一遍一遍的校对了。

页: [1]

掌上百科 - PDAWIKI's Archiver

关于不能编辑类PDF文档的OCR问题