|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 - F- b! ^# [5 M' k# E# a' ]
/ v% W! u( M/ r一、致谢:
" C4 B3 r2 A5 N6 j# y- k X 感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
; X: q* h2 s; ? Y, r3 p 感谢 @孤影 的自动划线软件, 给了很多界面上的参考
/ e9 f8 H- R y6 h( m; k------------------------------------------------------------------------6 e( ^( A8 w) m; s0 _3 b
二、这个软件有什么用呢???
, x: A0 A9 _& b1 R5 E 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
3 f5 g2 _9 O5 y: b 1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等$ K5 k. o1 \4 W1 p: T0 j
2. 使用本软件进行:
* g5 e3 m, t* a6 u (1) 全部页面的 自动划线-->自动OCR$ m: p/ X7 p% m9 n8 l# ?& {
(2) 逐页校对划线和文本(可删可增)) V' I3 I5 Z8 Y3 L
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典# g2 B8 n# q5 ]+ A0 V, P3 x; u/ {' V, R
B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
! ^& G) q: }$ \, Y------------------------------------------------------------------------. ? n$ K. Z" c% O7 f) l
三、实现的功能:( m k2 O& z# _5 _1 k9 t
1. 画线:8 |5 }, D5 U" W, F7 D
(1) 自动分析页面 + 自动画线1 |* Y; u) Y; E2 q" X
(2) 手动模式定义页面 + 自动划线
! t0 W, x- `7 F2 k! Q, v (3) 鼠标右键单击修改单栏重新自动画线! E* M/ m' q5 V1 K/ u: A0 e1 s% s B
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
0 X% m+ I( b( N# I9 \5 m3 G$ [1 N0 [$ f7 ~6 C
2. OCR:. a) j$ c2 K) f2 ~& z9 Z! l
采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
4 h. Q7 @+ ] V8 Y (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足; c7 s, X8 V6 k+ ?5 l9 m
(2) 导入文本
7 s5 o9 j% }2 L: K1 B) s! M9 N- [ (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对% @% O b- g8 A- J& h! F
外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
* [! r7 F) ]8 F
, g' t6 r! L- b! K8 M 3. 切图:* f) u7 H5 Z5 S* I4 m* R
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途: m y8 z* i- }6 P ?. H
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)0 g) m2 u' b% t" w
(实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)
8 H0 X7 }" |) l; _ (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
( @4 c8 {9 b: o
* u, t z( i% X- a4 Q- [ 可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行/ j) T) L4 g$ |, L* @8 r* r) U
# F7 {" u. T# `6 L4 J# O- ^
( A6 j4 E6 q+ t5 w: O' | 4. 校对:
) E! d$ [/ d. @& Q/ N6 H 列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
! u9 V4 G& f' P+ ~" D- S/ C0 u r
0 R- H. c. }- ~. v7 ^5 C; K 5. 其他:
. s: `2 Q9 v; ` (1) 配置文件保存、导入: S7 Y) z9 d4 ?( z
(2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务# C: R1 R. i; n9 W: M
(3) 最重要的还是要人工校对!!!! ]) {6 r. h3 Z" M" k
(4) 高度自定义参数设置
# k' d+ w% d9 p9 }2 J( j6 G------------------------------------------------------------------------/ a7 x. _0 P1 M& ?' Q3 f' G
如题,放个图:
b& Y2 t" @' N' x0 s( S
: x3 `" z. D6 V) X2 P( z: j; K; J+ J3 \' n5 z
( j: z4 E \' q, U
8 k1 {0 a; g. a# s6 ]& _截图内的词条文字为OCR结果2 ~" Q- V: `- K, K
# v/ c0 p3 X1 ]
) d7 b, }/ L; y2 B* s+ o! y g3 z: z. e4 E$ {; A" M6 U. h! W+ Y
----------------------------20181130更新:) d) W5 k" k, b3 Z! C
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
# G! d v' H5 ^3 C2 |----------------------------
" W t) _/ L% ] C# E/ f2 m3 g' h" M20180809更新:+ _; ^/ C2 {* G; W: Z& b: w
插图画区域由之前的矩形升级为任意多边形
8 L! o" l3 F O, v) J5 g, ~9 }7 j- L2 X
- v& e5 i$ v. L9 |+ z' h3 L' r2 O& O----------------------------
9 T0 k2 R3 P+ H1 b" U/ h20180614更新:2 A+ K% H- A! A, {/ Y
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
1 R g/ K2 b _8 p) y$ A; S单击则替换当前校对文本框中的文本!
7 ?! b0 g _* P% W+ ~不同颜色提示,方便定位!
2 n2 {8 w5 I# U: l, j% X. L8 ]1 O @
; }2 K$ }! G* h" b- ~2 N0 ]9 Z7 w; i, o
7 q! o- g5 Y9 a" { a6 ? D
3 [% t0 j" D: j' U3 t: r----------------------------
& [; U$ B w2 I) s8 T8 g20170314更新2:
, ^# ^5 {( f# X9 @校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
% z# P5 ]' q% G: X, a8 m4 \- V6 v2 [; E: ]/ A+ r' F, m0 _" _
$ l! G( _* Q4 O& R9 E; b9 l" i20170314更新:5 @% w( U5 {& f+ V6 x. z @
起始页-->终止页
, n. K0 g2 Y- ^4 L/ k, L4 n: R[切图]-【词条整体切图】
/ V! k5 E0 ]: y# s---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
3 X3 L% N8 f$ U: d如果起始页和终止页为空,则导出当前页的词条切图
& l' p1 I' R+ x8 e
( s2 t7 [6 {6 j# p% p在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽) ]5 W, i1 h2 i! e3 b4 v
当前词条亮黄色,其他还是红色3 _4 G, s0 q* W9 H$ l5 E; a- J7 l
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
+ D7 R) B* v1 t+ g9 [3 b* H3 U& S
6 R" v8 H! E5 D7 Y' g----------------------------' O& M* f$ j3 x6 C8 k
20170313更新:
) n* j. h9 N- l( T E/ j1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)4 n- T9 P2 b* {
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
$ E7 `& ~5 d/ a1 K2 E9 U: } d- T----------------------------* i! H# w2 F0 F7 l
20170217更新: h* \* l7 W7 s
1. 画线判断的方法改进(2种方法均改进)7 A) N; o0 [9 l* u0 t' h
----------------------------
' I" S8 M+ y- Q# G( a20170115更新:
5 C- {$ \. P7 Z7 b9 U1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
( L! i9 N. ^. l& N9 w9 x2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
1 h( K4 w5 R+ E8 v" L% A----------------------------
; I e1 z- o j0 M& T) O' F" i& y20161119更新:
8 \1 X$ u% ^& h9 Y) I1.修复保存坐标数据时的bug% E: o& N& r6 s0 R8 s! n
2.修复单词整体导出页面的一个bug
7 A( V5 f* w6 ^0 a& ]2 }3.增加功能: 选定范围页面的批量导入词条! R( y1 x1 ^2 F1 j7 Y
4.增加功能: 快速查找定位索引
* V) f x9 a% _1 p$ _& q& l----------------------------
6 `+ o" i' L7 H+ X. {2 T( w+ z20161123更新:, O! {$ z) v7 a2 F( X/ K& Q0 W
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。: Y- P/ m o$ X6 C+ I& u
& l5 k7 F7 j% }% A; k- 问题:页面是否有词条?
, C1 T, m$ z: _9 |" k' l. w - 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)8 E; Y- P9 M. g6 i/ C' |: q
- 2. YES -->
( \8 H1 Z9 J9 t5 N0 `# Y - (1) 确定0号词条所在栏:3 ^' W2 L3 T! ]
- --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
$ n" j+ s* M2 U) M6 c2 s - --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
2 A3 m( O# K( K* o1 ] - (2) 次数为所有词条数目的循环:
4 L! b# a& T, m - A. 若: 当前为最后一个词条 --> 确定高度
' j' ~% b% [$ q! r7 p+ q% I# n - B. 否则:' r# h/ T5 p( k$ ~: X4 F
- a. 下一个词条在下一栏 --> 确定高度
( Y! M3 K1 H( H6 ] - --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)& D Y1 c( Q; e
- b. 下一个词条在同一栏 --> 确定高度
7 k$ k1 p: L9 T+ z; ^, {; A# O
; X5 a& x5 f; v/ b9 C" Q) p- --> 导出每个词条的切图5 p) y. p5 h$ C3 b
- 9 Y/ I/ s9 j* x
- (3) 确定最后一个词条所在栏:7 L' j" k4 J, r% C" N& c1 e
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
& t- m, K' Q5 @7 A- G" p
/ ~0 l3 M* D' f0 u4 h9 ^' d重要更新:2 M; p- \1 l1 ]$ d; _' Q
1. 词条整体切图模块重写
3 b2 ]5 o/ y, ~2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
4 m3 W$ p7 R" Q& [1 Y
' w) k' X( c* K. V+ M
( R4 W6 |" x$ L! }& }- o! I' s) J, j( A6 G; }
2016.11.28
* }6 A7 |- v* `+ L更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
4 y, {& H$ U$ G7 x) f/ j2 U7 E! d
, s: H& H3 h% b' O7 k |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|