云ocr复刻纸质词典内容为电子词典的一些探索

流星冲击 · 发表于 2019-2-5 14:32:40

为什么要将纸质内容转成电子内容？

1，词条索引，便于查询

2，全文搜索，便于快速查询词组等内容

电子化前步骤：

1，词典的扫描版图片

2，云ocr

3，文本编辑器和html标签插入插件

电子化过程：

1，由无到有，目标的词典，利用云ocr得到英文和中文的内容，需要各自校对中英的内容数据和插入html标签

2，由一半到有，有英文全文内容但缺中文，只需校对中文的数据和插入中文部分的html标签即可

怒怼一个词条(由一半到有)：

《ENCARTA英汉双解大词典》：

《译文版牛津英汉双解词典》：

流星冲击 · 发表于 2019-2-5 23:08:08

y8888 发表于 2019-2-5 22:37
9 B. w9 E* I. r3 P! A& e( {目前也可能只有这种方法快点。若有英文则可以云翻译后再校对，这样可以省打好多字，速度上快些。那本韦氏我 ...

还有就是韦氏高街不是手打的数据，而是插入云ocr的中文数据到html相应英文解释和句子后面的，手打不可能一个月完成的。我的猜想：如果能用云ocr的数据利用英文内容模糊匹配原本的英文内容并自动插入相应的中文到原本的英文内容后面，利用这样的脚本速度会快很多，当然这个匹配准确率估计还是低，需要人工干预校对。

chigre3 · 发表于 2019-2-5 16:29:51

和 @Android 的方法如出一辙呢好方法！多个云OCR平台根据平台要求将图片处理成合适的大小(甚至是切图为小块) 进行多次OCR 后比较差别

流星冲击 · 发表于 2019-2-5 16:52:19

chigre3 发表于 2019-2-5 16:29
' s6 b" ^% r. @$ l6 M和 @Android 的方法如出一辙呢好方法！多个云OCR平台根据平台要求将图片处理成合适的大小(甚至是切图为 ...

本人有参与韋氏那本的录入（也提了一些意见），所以和Android方法一样，搜狗的ocr的api确实有尺寸限制，不同云ocr的数据用来对比文档用于校对可以省力气。

y8888 · 发表于 2019-2-5 22:37:48

目前也可能只有这种方法快点。若有英文则可以云翻译后再校对，这样可以省打好多字，速度上快些。那本韦氏我有这样做好，本来计划有空校对的，结果你们人肉先出来了及无私贡献让我捡了个现，再次感谢！

流星冲击 · 发表于 2019-2-5 22:57:17

y8888 发表于 2019-2-5 22:37" q( E' X1 A# m
目前也可能只有这种方法快点。若有英文则可以云翻译后再校对，这样可以省打好多字，速度上快些。那本韦氏我 ...

云翻译倒是没想到。我们校对的方法是利用两个云ocr的数据，对比出有差异的中文“字形”部分，然后根据纸质词典内容进行校对的。

yaknow · 发表于 2019-2-6 10:58:52

这样的市面上所有的电子词典都可以得以mdx化。
就海笛为例：
1.使用外接的设备，投射到电脑屏幕上（使用虚拟分辨器，把整张app界面全部呈现出来）
2.按键精灵对自动化词条输入，截图或者直接多平台ocr云识别，脚本处理整合插入标签
3.保存数据批量对比，找出差异人工校对
4.mdx呈现

流星冲击 · 发表于 2019-2-6 12:06:35

yaknow 发表于 2019-2-6 10:58% z: |$ e+ T7 t0 @3 ~, b
这样的市面上所有的电子词典都可以得以mdx化。 i0 ?5 e8 h; d$ h, X" ]
就海笛为例：0 ^! A9 L( N. I3 K! n7 C/ \0 b
1.使用外接的设备，投射到电脑屏幕上 ...

电子版词典优先解密出来，不行再进行ocr(数据准确率问题。)

likittyli · 发表于 2019-2-7 01:26:45

用了天若集合云ocr，但是总提示说该区域无文字。改了win7运行模式也不行，目前还没找到对中英文复合文字ocr识别比较强的软件

流星冲击 · 发表于 2019-2-7 09:26:41

likittyli 发表于 2019-2-7 01:26, @; h2 R$ C9 B
用了天若集合云ocr，但是总提示说该区域无文字。改了win7运行模式也不行，目前还没找到对中英文复合文字ocr ...

天若ocr开始收费了，免费版的百度api需要申请，默认的搜狗api有图片尺寸限制，将图片截的范围缩小，云ocr主要解决的是中文识别准确率和中文空格问题。

喬治兄 · 发表于 2019-2-7 13:00:13

請流星兄多加闡述云OCR，其原理和工具，小弟不甚了解，能否有圖解說，因其應用頗廣，或許能解殊多自行掃描的一些文件，謝謝

喬治兄 · 发表于 2019-2-7 13:10:22

yaknow 发表于 2019-2-6 10:58: n& p4 P1 O( a/ F+ J8 _
这样的市面上所有的电子词典都可以得以mdx化。. t q1 n& \. e9 F
就海笛为例：
% O7 E& D" \# \2 @: O5 ^1.使用外接的设备，投射到电脑屏幕上 ...

請yaknow兄多加闡釋其想法，其外接設備？投射到屏幕,?謝謝啦！

流星冲击 · 发表于 2019-2-7 13:28:39

喬治兄发表于 2019-2-7 13:00+ c8 `0 _! k8 [$ ~
請流星兄多加闡述云OCR，其原理和工具，小弟不甚了解，能否有圖解說，因其應用頗廣，或許能解殊多自行掃描 ...

云ocr可以用于车牌号，身份证号等等的识别。原理么，我只知道英文的，就是光学符号识别外加词典数据库用于匹配(估计中文和其他语言类似吧)，识别准确率本身可以训练的，Google的tesseract就可以训练，当然，我只是使用者，没有深入研究。

工具就是云ocr的api，你可以设置一些参数，例如用于身份证的，车牌号的，用于书籍的代码就需要自己编写了，也可以DIY用于其他用途的。
云ocr，顾名思义，ocr的工作交给云端处理，中文的识别准确率在90%，比本地ocr要好太多了。
我用天若ocr免费版，双击图标后使用自带截图功能截图后交给云ocr处理，然后返回识别数据，使用很简单，不用动到代码的部分，全程就是截图+手动复制内容。

likittyli · 发表于 2019-2-7 15:43:40

流星冲击发表于 2019-2-7 09:26
8 n6 l/ ~1 P# h天若ocr开始收费了，免费版的百度api需要申请，默认的搜狗api有图片尺寸限制，将图片截的范围缩小，云ocr ...

目前国内对中文ocr识别据说最好的还是汉王商用。主要是图书馆录入文献用的。特别是繁体竖排。老旧古籍。

我主要是用来处理大部古籍电子书。所以单张截图的这种方式工作量太大。谢谢分享。如果君以后找到其他思路来解决这个问题还请不吝分享。

流星冲击 · 发表于 2019-2-7 17:44:42

likittyli 发表于 2019-2-7 15:43
% N. g6 v1 V2 n) O目前国内对中文ocr识别据说最好的还是汉王商用。主要是图书馆录入文献用的。特别是繁体竖排。老旧古籍。; B+ g0 A2 Q6 N
...

繁体竖版，天若有竖版插件，不过云ocr对繁杂的汉字识别率会低，未测试过竖版文字的效果。

喬治兄 · 发表于 2019-2-7 18:20:44

流星冲击发表于 2019-2-7 13:28$ G/ h# W7 ]' N- C) G
云ocr可以用于车牌号，身份证号等等的识别。原理么，我只知道英文的，就是光学符号识别外加词典数据库用 ...

謝謝流星兄詳細的解惑

		自动登录	找回密码
密码			免费注册

[讨论] 云ocr复刻纸质词典内容为电子词典的一些探索

本帖子中包含更多资源

评分

本帖被以下淘专辑推荐:

相关帖子

评分

评分

本帖子中包含更多资源