|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
6 i0 @2 A# I0 `! g& P! D
8 h. t( \7 @+ d, }) t# b一、致谢:6 K2 l3 J8 o3 i6 g
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
# }" _4 s) O+ z5 i; A; { 感谢 @孤影 的自动划线软件, 给了很多界面上的参考
. s9 P" m8 v. _ @------------------------------------------------------------------------
" s# d$ X6 ~* v: l二、这个软件有什么用呢???
6 |. p4 {( M: A. d- y1 g1 n 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:- r$ p* @) G8 K9 H
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
4 U/ K1 ~0 x) Z; R2 ^5 s8 P0 L2 o( R 2. 使用本软件进行:- k0 w$ ]4 c& [* P6 L
(1) 全部页面的 自动划线-->自动OCR* z4 s: R( }9 n
(2) 逐页校对划线和文本(可删可增)
. B7 R) |6 d0 Q; d; T# k8 { (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
) @' S8 y( } ~ L0 g" g B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
8 M. ]4 v" G9 E4 W$ ^------------------------------------------------------------------------
( Y0 O! u$ c4 D: }3 i" B三、实现的功能:
# z V+ }3 s8 M7 \7 a' k 1. 画线:* S# n' I/ A$ I P ? {3 q
(1) 自动分析页面 + 自动画线
6 n7 O" ~3 Z0 p$ W" n (2) 手动模式定义页面 + 自动划线
$ _" E* q) s9 R% M (3) 鼠标右键单击修改单栏重新自动画线% i( l m$ v6 {7 `3 e9 I
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
/ z$ H/ v5 l+ q6 }4 ^
9 M' ` X, O6 a( U. n& C/ d0 x; X& T 2. OCR:" m* S. D5 B1 ^+ k4 e
采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata; k- z, f' M/ n: h. N: p2 A
(1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
3 s6 R. \0 O$ I8 Y5 y (2) 导入文本 O2 c) [! Q7 N9 Q9 \% G
(3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
& `, [3 V! n! `1 B! V% f, Z/ i& @& W 外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景0 x2 J; \6 q2 g" `& y
3 m# T; \3 S* B! J
3. 切图:/ z0 x1 ^7 a3 K* F ^% {; i l
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途, Q: E# @0 i, C0 b1 m
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
6 \+ v; @6 i6 h4 o (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)' {) m) H/ i1 q% o8 y& g& B3 q& N
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)
5 k! N6 i# W) n' Z
W2 E2 m1 m1 t% {& | 可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行+ H. z+ o0 {+ [8 h& S/ q$ {
! `9 j ?- ^/ `) s
( J; M- k& ~4 n) L5 l. |5 K. z 4. 校对:
5 P) V# ^6 C, A! S1 i$ Q) X3 b 列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
2 H' G8 c; t6 P6 r, D T( d3 d, i! h6 X1 L- k2 A8 T/ U u9 H( |
5. 其他:, [2 r% N, I H& F8 X/ Z4 h' b' X" `
(1) 配置文件保存、导入
. e" m) s H1 H, w @, t6 r; U (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务" I: K% M2 p: Y5 t0 U" Z( E' T/ K
(3) 最重要的还是要人工校对!!!!( x. W# f: Y7 B. p' F& T! l
(4) 高度自定义参数设置5 i; [* Z+ N4 M3 A1 M) n
------------------------------------------------------------------------# E! v/ Y6 D, B; V
如题,放个图:+ s; R. C; V% ?0 l
9 u$ K y5 J% B2 e9 S: i& F" _* j( l
% X, P+ q3 @. ]" S) h- U5 G2 C' A6 J
5 W3 J( ~9 u* \1 t$ @
截图内的词条文字为OCR结果
7 {# D- g* Q' b p. i$ Y# L
; M' Z: O2 c9 _8 V, X. D" ]& l
) M) g. t9 @8 A/ @
7 M, @3 U- K- Z3 ?+ {8 g----------------------------20181130更新:& r9 b* h# U H" m6 g) C
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!1 N8 ]/ y5 s: @! N I, D
----------------------------
5 w0 @7 Q; V$ w4 ^% o3 v8 f20180809更新:
/ h) j/ \5 i f+ k- y插图画区域由之前的矩形升级为任意多边形1 W& {7 E) O7 G: A: ]5 Q
2 ~8 P/ E- P1 a9 |
* {0 n# U6 F" E----------------------------
, j5 s' r) `) Y1 u20180614更新:
6 O/ ?; W! _! j- o在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
: @$ O( n9 v2 o1 n6 V单击则替换当前校对文本框中的文本!3 h& n2 K m! w9 V2 F9 K' {; l
不同颜色提示,方便定位!
* P& d, Q" g, U4 w3 M+ _9 M% p( O. `
* g4 D1 K4 V" f5 s9 x
( `7 f2 S* p6 E& C" u+ N; Q# F
/ A, {# V a o. e% z; S----------------------------- j6 u5 S6 P' n$ g$ o
20170314更新2:
: T4 B8 B- C! K Y$ S2 |% u校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:$ i' h. M1 u4 T( m
, G: v0 Q* U3 x2 i$ H
3 s$ v9 \; Z+ ^% R i$ c20170314更新:
* @; x9 G* _# |5 G% r* D$ O6 C起始页-->终止页
2 B% ~8 O" U0 c( O/ a[切图]-【词条整体切图】5 E, z" r0 X3 B* q, Z5 w
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
3 a4 w, c+ L& j: Y如果起始页和终止页为空,则导出当前页的词条切图" `3 E, @- B9 I
, h6 C) W" I( ]) D& B在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
, ?9 Z" y8 d: B3 A5 y, D: ~当前词条亮黄色,其他还是红色) s9 A3 M/ H+ k1 ?6 M
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
7 c5 E% T8 Y9 m' L+ r `
7 S7 C3 ]9 d5 v( A: H* I$ D/ Z----------------------------. q. v4 s& Q i6 t
20170313更新:
1 j+ @' ^7 l6 I" U1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
1 B+ c' T: |) T 【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
T; m. y* Y n4 K' S# o5 w----------------------------, Q+ o! c4 q0 m5 [# p. k( L5 i, L
20170217更新:8 E p3 @& x1 V* F1 u- {; F$ Q
1. 画线判断的方法改进(2种方法均改进)% [' v- k5 {, k2 {5 U
----------------------------
2 Q: p6 s1 ]0 D. }20170115更新:
( `/ Z; R$ a# }! }- f8 C$ b3 z( i1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载3 Y- Z5 Y2 F# ?6 Q. C4 K
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)# r) d t3 Q/ p) R2 }
----------------------------! n/ `! ^7 m- K$ I7 L. d
20161119更新:4 B8 z' N% ^8 `
1.修复保存坐标数据时的bug
, M! j; {' D: q2.修复单词整体导出页面的一个bug
! b3 t+ N; P) Y R. m, W# L3.增加功能: 选定范围页面的批量导入词条- q9 B8 h( Q" `' ^, R t- C1 e' m
4.增加功能: 快速查找定位索引
$ e4 x9 T3 O3 c% u% s----------------------------
# y2 D% k9 c$ ^2 ?$ T& W/ R20161123更新:
3 \$ e% m- M# _) |8 f+ E \9 ]0 M5 o重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
k$ R5 _9 ?9 K6 T1 r2 G
- i. z) I% ?, k) }3 {- 问题:页面是否有词条?
3 |# p l7 D4 o# Z - 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)5 \7 l4 j8 k- M6 E8 [( Q# l
- 2. YES --> - Q) L+ h7 E$ P0 S7 @
- (1) 确定0号词条所在栏:% y4 j, x* Y2 s6 }; S0 D
- --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
6 U8 R/ X- E; E$ q' O8 M - --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)+ b1 m8 J3 u! z" U
- (2) 次数为所有词条数目的循环:
* W! o/ R: r' h8 `6 ^ - A. 若: 当前为最后一个词条 --> 确定高度
0 D# }3 p. N, o - B. 否则:0 G, C2 r8 }6 n$ o* d$ x' |
- a. 下一个词条在下一栏 --> 确定高度
0 V4 r$ q* Q1 {& _& ? - --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2): ~: M2 i8 y' z
- b. 下一个词条在同一栏 --> 确定高度: r) V& }- A; x+ K/ L4 [7 j
- 3 `. L2 K9 G7 u" m% L- J6 H1 M
- --> 导出每个词条的切图4 J) R6 I2 F$ C8 J1 T0 _3 U$ K5 d
- : [( N/ G8 a0 t" |7 y
- (3) 确定最后一个词条所在栏:
9 Q. D7 E3 W& I& ^9 @7 i - --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码 0 N$ _( t$ X* V2 m: S
( ~, O* r* A* c2 N* b" i. Q重要更新:5 k! L/ |: B6 u) J0 o
1. 词条整体切图模块重写
4 m8 I2 ^# v8 [: L7 R* {2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
6 r3 V3 s6 x( Q) o. N4 ?8 Y# x; u1 @/ V% c0 f |; I$ g" v
' f6 h' {' Y8 z" |) |
; _- v9 V$ k; y+ X. |2016.11.28
, M. O% b8 Z) Y! i& d6 p F更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
* I/ V4 G9 L% o/ A
% ?6 [5 }$ e. _0 i: d$ j+ z |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|