|
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 1 c$ j2 {6 }' c5 n/ u9 r
Y8 q' c$ I0 A/ t, g+ k一、致谢:( g" S5 W0 S$ j( L( a0 Z" r1 X2 c
感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
* Z2 ?, ]& [; j 感谢 @孤影 的自动划线软件, 给了很多界面上的参考
\5 N" U T. C. Z! S) |------------------------------------------------------------------------- \( {* {& B; @. N
二、这个软件有什么用呢???
0 D' ]. @# s# P; [ 极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:0 a8 ]5 h/ P3 S6 y
1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等 B% p; N& F9 y, m( D, @0 i. O: G
2. 使用本软件进行:( o+ Q+ w9 I+ Q+ v
(1) 全部页面的 自动划线-->自动OCR
9 @, h% ~$ `& A3 J7 O2 V" { (2) 逐页校对划线和文本(可删可增)8 N1 ] o+ Y1 L6 t3 I, |, Y" d
(3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
' ` d9 l+ V* z B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
- w3 `: d9 Y1 N------------------------------------------------------------------------" z. k, e, x% u0 `: H" j
三、实现的功能:
* y8 A3 r/ }' P% o6 h, C 1. 画线:5 `3 d; o8 b* E& u* c
(1) 自动分析页面 + 自动画线
! z( j- w4 p0 W, e) s, k: C (2) 手动模式定义页面 + 自动划线5 g& X4 t, K2 A; i( u! x+ m! {: f
(3) 鼠标右键单击修改单栏重新自动画线
2 M* a) h/ N$ X4 q6 D ?) c 以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线: m' }- W5 {' O6 P
* f# b i ^; M7 S$ g3 {3 R } 2. OCR:
4 K) }" M* U, C 采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
( A( l9 ]0 L8 e2 p8 i, \! S (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
7 t, G0 ? ?7 c# b9 I3 V (2) 导入文本
4 f& c& x0 x* ]' S (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
8 s; m+ f$ ^- P: X, N( W! | 外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
- K3 V' o6 {$ ]" X" D5 h$ |; e/ ^: a9 B, T) c; ]/ n
3. 切图:1 i% E: T7 `3 o$ Q6 p7 i
(1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
# H @' m4 q# G w( _9 N (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html)
: j1 F4 f6 V9 S; E7 M0 K7 s0 L/ O (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版 https://www.pdawiki.com/forum/thread-19015-1-1.html) i- a: n, x+ n; Z2 P
(实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481)& _1 U1 J) m/ {+ C& k
' [ m3 T, M( K; b4 ?# i( b, V 可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
$ \4 |8 K! K1 k
, F. f% h3 r7 p$ D. T. O" r9 ?
: O/ V5 c& h$ g. P+ \+ e# b8 D 4. 校对:! k+ E# w7 E8 L% l
列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
* D0 ?' q; i3 Q t O, G3 n1 m; }$ l H. e# m& {
5. 其他:& X* i+ F0 i0 c: X, f j
(1) 配置文件保存、导入
Z! I' h+ D; J# L9 h (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
( G! W. M. c1 t (3) 最重要的还是要人工校对!!!!
' _; a! I6 }7 y4 } (4) 高度自定义参数设置% L3 f* S* K+ Y( @9 l4 d
------------------------------------------------------------------------) a% J' W9 _( M
如题,放个图:/ F5 J, l! G, T* y# f
* T! r( `/ G& s9 r8 h
2 C/ k& W' U6 S+ V3 x
, `4 [8 `3 X- u3 r- i
. C( Q) `/ L5 H9 {3 N7 E
截图内的词条文字为OCR结果
/ F& V+ L5 {9 c; ]/ z( x J) R5 ~, ]8 `4 I, L' C; \9 K
$ B8 `5 A: M0 m8 n1 m2 ~
4 Y" @4 W( _" ]8 l$ x----------------------------20181130更新:5 t8 w- |$ P8 q% U
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
" O) x) T) j3 B& P2 a( \: }6 }----------------------------* @' h) ~6 C7 A2 I) p O
20180809更新:
0 d! U9 q4 c% y% ], L" f插图画区域由之前的矩形升级为任意多边形
( P0 T" Z1 Q! J" B& I5 K; I- \3 U# B; J u" X! Z6 @- F% J
& E! D3 i9 M- y----------------------------' B; g' Y, e2 r0 k, u) q
20180614更新:3 g0 J& e9 P: k$ F0 |
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
6 @6 L) e2 Q9 R4 Y% d* D单击则替换当前校对文本框中的文本!" \% g8 C1 G5 R2 @
不同颜色提示,方便定位!6 q% E3 \, {* _6 s3 j) F# C! c
1 P ?* _- a' |6 g
% p' q, d6 ]) J1 r A- X2 @! R" N$ q, O* `6 A! Z" e
----------------------------
: v; a5 p0 [. G$ l20170314更新2:
o9 q* j" V1 e, q校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
6 a$ X" {9 |0 g; B+ _* `8 m( D4 \) j: }( \$ ?7 h
: `4 R* |$ r7 @0 t9 B3 s20170314更新:
# t( \- m8 J/ `$ m% N起始页-->终止页) P- n m) n: r4 K+ T1 j9 G
[切图]-【词条整体切图】$ |" }2 g7 K6 J8 s9 Y- S
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)* v7 j* t: R# |! H) d
如果起始页和终止页为空,则导出当前页的词条切图- l6 Z# u, Z2 c$ C9 s$ L' Z: R
, N2 ] ^0 e; d0 l7 f2 v在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽) D$ i+ \9 X0 b$ v( C
当前词条亮黄色,其他还是红色' a' w& E6 e% M! s3 P2 P
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。+ F2 E) S$ ] r8 y$ P' D2 a
5 a0 w1 C" [7 b( O' B4 a
----------------------------
9 ? z7 e& A: k9 Q5 W m- W20170313更新:
$ }$ L0 M& \. I; q/ B K& j8 V1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
8 w& I: N. n6 ?" i 【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】6 g4 Z6 |! }- N9 Q m4 E$ b3 b
----------------------------
0 t. @/ N- P* E* m0 T7 R20170217更新:/ O/ o$ D$ G2 d0 F
1. 画线判断的方法改进(2种方法均改进): W" m8 E+ p3 V
----------------------------- t+ S: q E1 R
20170115更新:# }) _7 i0 d/ X! i+ u* G0 q6 `
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
7 g. l) }; a, b) [4 W2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)7 e8 G% o% ?2 h/ ~. E* O
----------------------------, u {/ O7 D9 _, a( ?) t7 |
20161119更新:8 D( w f6 J3 d
1.修复保存坐标数据时的bug/ G1 N' f' x1 h. ~
2.修复单词整体导出页面的一个bug
" b3 _* d8 S8 r& ~' C6 N; f3 ?% ]3.增加功能: 选定范围页面的批量导入词条) X5 O5 A5 L8 O
4.增加功能: 快速查找定位索引
; p d, Q0 E: v: G9 s----------------------------1 Q" F, c/ j ]* X, ` `
20161123更新:/ ^$ ~; R$ y* D
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。3 O* b I; ^ D# s3 E r
2 |& x- V, V8 z& G
- 问题:页面是否有词条?
- w8 K5 n4 ]7 g2 a - 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
( z3 G. c4 `" S. _$ X6 r: B3 N5 [. f - 2. YES -->
: |3 Y, K' j0 Z: A( a: f( g0 A - (1) 确定0号词条所在栏:
6 c9 D( T) }4 @( K - --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)$ e- N, \( l- [. b, e" K4 z, M
- --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
( A; t, u& ]0 W) k6 [- C9 `8 ^ - (2) 次数为所有词条数目的循环:! ^- [' l5 a% A8 _
- A. 若: 当前为最后一个词条 --> 确定高度
! X8 K3 Q0 l5 C% c6 k - B. 否则:7 ~$ g0 H5 T7 K) ?0 u
- a. 下一个词条在下一栏 --> 确定高度
h4 m* |3 [* M+ t - --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)$ Y, f5 K N! S, h g5 R
- b. 下一个词条在同一栏 --> 确定高度
4 m, K- U: g+ n1 b! I3 k) M
8 ~0 `9 E* m" D1 c# P. x- --> 导出每个词条的切图! d- b$ n+ s. ?& C% ^; E
- # u o# j5 D4 M0 w
- (3) 确定最后一个词条所在栏:
: h7 n: W( r3 e/ y* Y1 ]& B( J& r) K+ Z - --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
/ ^" O6 T S3 Z( P, h
1 i9 N# q$ L; r; C2 `" E重要更新:# @$ U) M+ [) i* ?( [; c7 x1 Q% F
1. 词条整体切图模块重写
* A9 P- K; K0 M$ _7 E; K& T$ Q) n+ H2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】( i# Z" y5 d3 z" w' F
, z7 y3 e' f8 e; o6 f8 Z% w% K9 s! n! l
0 {9 G0 E i: E7 \
2016.11.28
) S( F- Q( B7 e; ?% q+ A更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)& G& S! {; q! p$ E
( p7 F/ w2 @0 e7 n" b. ?7 s% [
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
1
查看全部评分
-
|