毛小驴 发表于 2020-9-3 17:41:29

关于不能编辑类PDF文档的OCR问题

本帖最后由 毛小驴 于 2020-9-3 17:41 编辑

看到论坛上面有许多大神的神作,有的是利用现成的数据文件进行繁复的编辑、美化,但是有的只能利用一些原始的文档文件进行扫描进而OCR,再进行繁琐的校对,对于像我这样的小白来说,光前面这些文档OCR就已经玩不转了,更不用说还有后面的校对,校对完了以后还要进行样式调整等等繁重的工作,这样一想,能制作出一部精良的词典何其艰辛,所以有的好词典进行有偿分享也是理所当然的事儿,我自己也在论文上买了好多词典,用起来自然心喜。
今天突然想到一个OCR PDF文档的办法:利用Adobe Acrobat Pro DC进行自动识别,其实方法很简单,直接打开pdf文档,在文件里面找到“导出到”,里面有几个选项,例如word了、HTML了、纯文档了,都是可以的,而且我用论坛上汉风宋韵发的语法文档(https://www.pdawiki.com/forum/thread-41454-1-1.html)试了下,结果竟然是出奇的好。
贴图为证,上面是原始pdf文档,下面的是转化后的word文档,可以对比一下 ,结果很理想,平时一些其它不可编辑文档也是可以这样转化为word格式。当然,有的大佬也许有更好更便利的ocr方法,但是那个可能对一枚小白来说不具有操作性,这个就简单多了。{:4_97:}

999阿彌陀佛 发表于 2020-9-4 09:50:24

即使是99%的正确率,也要全文校对一通。。。

bob123 发表于 2020-9-3 18:04:04

感谢分享经验。表面看着不错,可问题还是在于校对耗时耗力。。

klwo2 发表于 2020-9-3 18:52:00

{:4_96:}出奇得好

因为你选的文档是语法书呀……

毛小驴 发表于 2020-9-3 19:43:22

klwo2 发表于 2020-9-3 18:52
出奇得好

因为你选的文档是语法书呀……

K大说的对,这种OCR识别针对特殊字符确实是识别率低,而且乱码也多{:4_91:},这个也就是给大家OCR一般的文档使用使用,复杂点的还得靠专业的来弄{:4_105:}

言叶之庭 发表于 2020-9-3 19:47:09

OCR工具挺多的,ABBYY、福昕,关键是校对。

wjl 发表于 2020-9-4 10:03:23

人工校对的任务有没有自动化工具来完成呀

毛小驴 发表于 2020-9-4 16:02:48

wjl 发表于 2020-9-4 10:03
人工校对的任务有没有自动化工具来完成呀

这个还真的是不知道,因为没有制作过,可以请教一下 klwo2、999阿彌陀佛等大神{:11_379:},楼上999阿彌陀佛大大也说了,即使是99%的正确率,也要全文校对一遍的,很多工具虽然自动化越来越精确,但是难免碰到一些特殊的字符了啥的,这个可能还是需要人工一遍一遍的校对了。
页: [1]
查看完整版本: 关于不能编辑类PDF文档的OCR问题