|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 ; f O& m: B6 z$ U" Q" b; ]
2 n/ d7 ~8 I6 `& z一、致谢:( l6 a% C4 ?" n% ^7 X ?0 k
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
2 m4 `: r& o. g5 l' A0 | 感谢 @孤影 的自动划线软件, 给了很多界面上的参考
( }0 k% E% _; g: t------------------------------------------------------------------------; q$ b- z- C0 ]" m0 ~, Z) n( P
二、这个软件有什么用呢???" X8 d8 {# B; j, d9 n3 D5 C: J
极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
! f8 u5 q/ v! y$ f+ A# @- ~5 { 1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
3 K) G/ M& C3 X2 H% G$ W# H) z 2. 使用本软件进行:
! G, m. x! ?( @+ z" ] (1) 全部页面的 自动划线-->自动OCR
7 H, ?, j1 h. r% i& u8 v (2) 逐页校对划线和文本(可删可增)1 `- M( O; ]0 }2 V5 P/ i: U" ?) \
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
2 A. Z/ k9 m7 B. Y6 S B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典# v9 E5 Q) Y# |7 x v: S* l) X6 x
------------------------------------------------------------------------. ]6 L, i6 A1 Z5 L
三、实现的功能:
4 T G; v! z0 {( q; Q! o 1. 画线:
+ a+ p6 _4 y( f( F9 M* p% I (1) 自动分析页面 + 自动画线' a+ d, U% A+ J$ @% D6 @9 C
(2) 手动模式定义页面 + 自动划线
+ c5 {4 ]1 C& w9 k6 f* [ (3) 鼠标右键单击修改单栏重新自动画线0 ?- X1 C; x, Z% X' p
以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线' y. G* u. d+ E% [0 Y$ J
7 @6 C- A! k/ Z0 r0 ~: S, W! G3 ^ W
2. OCR:- E7 [6 K1 d# t9 U* x( v
采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata+ G+ L. |2 g9 T/ [
(1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足+ b. z v6 J9 o! x
(2) 导入文本
0 i+ N$ U( N% k" X0 F: S& N& e (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
0 v" a- s/ O- x3 I( P- _) r 外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景1 o# Z ~3 T, [% H4 N" |4 V1 j
4 t! ?0 V$ I, A' K- y 3. 切图:% S, @. z# x* j5 Y9 _
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途0 n" N$ z" Q a: Y; K6 a$ D
(2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
9 R* ]/ ]6 e# J6 G1 j7 N7 Q6 D (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html)
7 G1 N2 C* f$ B3 U8 f+ B8 {* j+ m7 Q (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)0 J( |% d: s2 o' m4 ^2 b
8 v0 X7 z4 Y. S$ _0 b `, N! L
可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行" m/ E! X( a2 k6 q3 O) p/ s
, o* F2 z. U0 h' F. F$ a @$ {; R: S8 J5 s! Y* [; w
4. 校对:
1 p- L) V. x7 l* M& \ 列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
5 T# {, b2 b) K. k2 F t: }
! g# a- i5 r2 R) K# {1 ~$ ` 5. 其他:# d" M, z' V! S6 \2 E! `5 e
(1) 配置文件保存、导入9 S# D, T9 r4 l9 B- p
(2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
# t9 z) P, P9 z (3) 最重要的还是要人工校对!!!!
* F( w+ i! e/ m2 ` (4) 高度自定义参数设置
. f8 a* Z& e6 g+ S: \------------------------------------------------------------------------
$ e1 E& |8 q4 T1 Q w如题,放个图:% ^8 \# @! [) }( b6 M( a* C
/ B' P1 O( r3 r9 G6 H
' v! j( a# Z" [/ V, D) Q: t
/ g+ x8 f/ `# P9 V* G! m7 m
1 n& a2 t8 o2 Z) l& c; `" c8 D截图内的词条文字为OCR结果+ y- s' ^4 M( C4 v3 @
: b$ P$ e/ l4 n6 g( K3 e
7 q- F' \# a# s: j+ c' S/ L5 Q3 Y8 \+ b- E0 N) B
----------------------------20181130更新:
$ D! D! d1 o- b7 X* U5 `校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!# M% ~/ ~% ]+ |$ n+ l# I, k
----------------------------- S V* Q2 p8 e+ L1 e
20180809更新:
- F( Y. b) p' ^# Y插图画区域由之前的矩形升级为任意多边形1 f7 x( J! r1 V( v3 S2 k
) m. ]& d, M1 n y$ b/ Z) I+ e
; l q' U/ @* F2 q. [----------------------------9 H# B3 L# P1 p7 t9 I
20180614更新:
5 r3 `7 P) C r$ v在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
- s- b1 ?' x! r6 z& }' d8 e: O8 g单击则替换当前校对文本框中的文本!
9 C9 g5 z# l" I+ M9 H. w" K o不同颜色提示,方便定位!
% \2 B# X# Y9 L0 Q# ~& i0 L4 }. W9 W1 D9 H0 b1 P+ e6 [% ?
4 ?/ l! G& F9 l) o {% U5 G" G. K; ?$ M$ {! [+ k
----------------------------
( }7 G9 k6 _* L- n% Y7 C20170314更新2:
. j8 C1 Z! M- B校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:7 |: B- l$ [; T# ~9 _
& |( o$ p' x: Q
0 x6 a/ y9 T" c20170314更新:
* K2 a, O% t0 C9 ?. C起始页-->终止页# U( _% O p0 h2 R; p
[切图]-【词条整体切图】
! x8 v1 w5 l! R, N) J---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
2 ^ t- N6 c' c/ u9 A如果起始页和终止页为空,则导出当前页的词条切图
: b( E. k+ H( ~) J
# ^- H4 x4 y! G8 ^9 i在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)6 w. C2 y3 I. x
当前词条亮黄色,其他还是红色
1 T( ]& J) F. U这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。0 {: U; p- G* w
0 W; K( A) ` b8 |% D4 U6 }1 b7 f----------------------------
- m/ Y2 I& D% z3 D" ~- R% k20170313更新:
@) s- y" {# H: c1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)6 g! x8 t3 b+ [9 w: y; F4 w+ s# C
【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
6 c& C7 C V; P8 o5 K0 O----------------------------
) P e% K2 N# B) V/ v8 _20170217更新:& b' K7 a+ h: q+ f
1. 画线判断的方法改进(2种方法均改进)
2 r$ D( w3 d5 S1 {& s----------------------------
( J7 j! f6 Y% I2 P) B& F20170115更新:, e6 J3 w5 P& @- q, s
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
) ], T8 f% G6 u$ Y' y& h# G2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)! p/ S$ W7 a! S$ \! Z0 |0 s8 P
----------------------------
1 W8 r" w2 q* s0 K4 I K- J20161119更新:
& X2 U/ ^, P0 K8 K1.修复保存坐标数据时的bug8 x+ U" r) e& {; u: f. J! e2 h
2.修复单词整体导出页面的一个bug
% ]1 |( T5 `9 X2 H* v3.增加功能: 选定范围页面的批量导入词条
; {7 W' _, M6 f2 M- k4.增加功能: 快速查找定位索引
% p: O+ ^" k3 Q5 Y6 D, k----------------------------; i; b1 i5 Q( I' B
20161123更新:! _) r6 U* D: ?& H
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。8 B7 e4 P( K/ e0 K# a) @
! _% ?7 [) I# T& @: ^- 问题:页面是否有词条?, J$ B9 j9 J$ e6 ?, M
- 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
0 Q4 L/ q/ P0 e; K! _ - 2. YES --> + r# P1 [! M- S
- (1) 确定0号词条所在栏:, E$ T* w, G# {6 c5 L& K0 {; s* U+ Q
- --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续). d' p$ R1 X6 F% y
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续): s' u* \8 A9 Z6 ]. S7 s' Y1 f3 w
- (2) 次数为所有词条数目的循环:
4 u5 i' Y. \+ Y: i( O* J& \ - A. 若: 当前为最后一个词条 --> 确定高度/ ]4 q$ q' k- ~4 r
- B. 否则:
9 V3 `7 A V$ g5 ^( M2 d. O - a. 下一个词条在下一栏 --> 确定高度, @7 p, t+ ~, }2 O# y& w* y
- --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
/ q! `1 G# U7 ?) E - b. 下一个词条在同一栏 --> 确定高度
* O& G5 w0 s+ K5 N) w( u - 1 g- ^) {' p" A/ W N2 ?( L
- --> 导出每个词条的切图
1 X5 m4 P% o) d. j# t) S
) i8 B! ~9 Q/ {# m1 M5 w- i9 L1 n- (3) 确定最后一个词条所在栏:- A- n; j) U o3 {; M* `
- --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码 2 Q8 G V O0 r4 h6 o
1 S. L- |2 V. ?1 P9 V
重要更新:3 j0 Z% m, V4 I0 Q- o5 h/ W; d
1. 词条整体切图模块重写
* _8 b1 q% @' Q2 v7 B+ m, z2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
: u+ b8 L! A u% D4 r5 T- D( k4 V a
% r/ ]6 Y* @: h' w$ ~( E, Z' e/ |
7 R1 X2 R* ?+ u: o' [+ C9 o' y+ d' ~$ Q2 |6 T! D3 H. w
2016.11.28
/ V$ I' L3 B* E% O8 Q! [更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
( [7 W" E/ `5 P( s9 i8 c) F- d0 Z% j
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|