|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑
. w' A* C' g. u, g+ v! H. {. B8 a. N4 V/ h; u: |! b8 s, L
不用另外写个小程序,直接综合使用现有的工具软件。, F4 C8 |# s' V5 t2 j' | B9 |( M
/ J7 u- ~3 k2 B% p; h, Z; a
正文页面的首末单词索引制作方式:
7 T1 S0 W5 ]; r: U注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。+ ^1 Y/ { k7 l* {1 Q$ z9 g2 C. R8 M3 A' [
) V6 c3 e) f/ P. Z- e/ B
(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;
0 u$ e% O& O; }1 k j0 L(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;8 F8 p+ }2 h: F3 c$ N' D- {
(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;7 }6 W; r) n: Z5 }% r, U" v& J! ]
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;, _9 O8 q3 J$ J. |) O2 g: e
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
) x9 _1 L8 O/ Q! U' p p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
' `/ g0 `5 V4 l% B# I8 C& F" Q$ N(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)
( \* G" }8 }, c
3 ?6 Y+ O( Q+ q; C2 ?6 d+ }" a# w这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。
' b* i: Y0 v+ |3 y" r延伸阅读:; C. H N m) Q3 Q
[设想]一种新的词典格式[专为图片版词典设计]) ]0 s8 a; }. W7 j4 m
https://www.pdawiki.com/forum/fo ... hread&tid=22035: ^" k- B% {7 c. ^7 K" p
我的楼层:' o9 \' s& _ r4 W
https://www.pdawiki.com/forum/fo ... 2035&pid=520858% U7 I: A+ C7 ~9 C4 ~' |
' Z4 p. ?$ U$ }3 a1 Q3 F8 c4 h* ?* Q" T; u" a# e! ?
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|