|
本帖最后由 chigre3 于 2018-6-30 21:37 编辑 # `4 h, b9 P9 R% m' V* N# ?
) n& w$ ~5 r! b不用另外写个小程序,直接综合使用现有的工具软件。
1 G! a @. g5 U2 \
* y4 ~$ n2 ?: Z$ K正文页面的首末单词索引制作方式:
T1 _! s! H r/ C$ P) a" _) ^) n注意:当然可以直接手工录入的方式,完成后再按步骤6检校3次。
: o3 t |& f+ |$ ]! x
4 y2 L8 g+ C! L, Z% d, J(1) 使用 ComicEnhancerPro 【批处理】将所有页面纯黑白化;! M$ D1 z, j' h; C7 }
(2) 使用 ImageMagick 【批处理】(.bat) 对页面采取固定位置+固定大小切图,得到包含单词的页眉截图;
/ P8 M( ]4 x9 v$ S(3) 使用 FineReader 对切图识别,导出文本文件, 每个切图对应一个文本;- p, K1 U+ ?+ W6 n# d) B) J
(4) 使用 TextForever 合并文本,添加文件名信息和空白行,整理文本;# m% G; Y {1 g+ S! w- D
(5) 屏幕左边使用 ComicsViewer 打开图片,适合宽度显示;屏幕右边使用 EmEditor 校对步骤4的文本 (第1次)。
2 }1 b: A' R a) r0 Q% D p.s. 原扫描图片为高清, OCR识别后的步骤5需要修改的地方不多,可能不是很有必要!修改的地方仅仅为:个别空格缺少,个别单词的字母识别错误(使用单词拼写检查无法检查出)
9 Q3 H; j4 f( n(6) 使用 Excel 的拼写检查核对一下 (第2次),然后再使用排序检查 (第3次),最后将这些单词和MW英文版的大词库词条进行删除重复测试检查是否有范围外的单词 (第4次)& \' o9 s9 ` a7 B5 b1 q* M' }; `) @
% r! t1 e4 j6 P9 H
这样的单词索引,稍微加工之后,可用于Goldendict通过加载python脚本实现整页版查询、显示、翻页等等功能。
9 l; ~. |( A( J' o& u) `延伸阅读:. v# H! m7 Z" T9 |
[设想]一种新的词典格式[专为图片版词典设计]: t, e8 v/ Y7 k
https://www.pdawiki.com/forum/fo ... hread&tid=22035
% _3 |! R g1 |6 K8 B 我的楼层:6 T a3 [+ V8 _* L3 b- d
https://www.pdawiki.com/forum/fo ... 2035&pid=520858 G) W# j/ D' A% {' d' m4 Q
) e- F! K7 f8 F& `0 S
6 X, U" T4 }) J" N/ r |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
3
查看全部评分
-
|