掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17569|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 - F- b! ^# [5 M' k# E# a' ]

/ v% W! u( M/ r一、致谢:
" C4 B3 r2 A5 N6 j# y- k  X  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
; X: q* h2 s; ?  Y, r3 p  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
/ e9 f8 H- R  y6 h( m; k------------------------------------------------------------------------6 e( ^( A8 w) m; s0 _3 b
二、这个软件有什么用呢???
, x: A0 A9 _& b1 R5 E  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
3 f5 g2 _9 O5 y: b  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等$ K5 k. o1 \4 W1 p: T0 j
  2. 使用本软件进行:
* g5 e3 m, t* a6 u   (1) 全部页面的 自动划线-->自动OCR$ m: p/ X7 p% m9 n8 l# ?& {
   (2) 逐页校对划线和文本(可删可增)) V' I3 I5 Z8 Y3 L
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典# g2 B8 n# q5 ]+ A0 V, P3 x; u/ {' V, R
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
! ^& G) q: }$ \, Y------------------------------------------------------------------------. ?  n$ K. Z" c% O7 f) l
三、实现的功能:( m  k2 O& z# _5 _1 k9 t
  1. 画线:8 |5 }, D5 U" W, F7 D
   (1) 自动分析页面 + 自动画线1 |* Y; u) Y; E2 q" X
   (2) 手动模式定义页面 + 自动划线
! t0 W, x- `7 F2 k! Q, v   (3) 鼠标右键单击修改单栏重新自动画线! E* M/ m' q5 V1 K/ u: A0 e1 s% s  B
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
0 X% m+ I( b( N# I9 \5 m3 G$ [1 N0 [$ f7 ~6 C
  2. OCR:. a) j$ c2 K) f2 ~& z9 Z! l
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
4 h. Q7 @+ ]  V8 Y   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足; c7 s, X8 V6 k+ ?5 l9 m
   (2) 导入文本
7 s5 o9 j% }2 L: K1 B) s! M9 N- [   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对% @% O  b- g8 A- J& h! F
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
* [! r7 F) ]8 F
, g' t6 r! L- b! K8 M  3. 切图:* f) u7 H5 Z5 S* I4 m* R
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途: m  y8 z* i- }6 P  ?. H
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html0 g) m2 u' b% t" w
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
8 H0 X7 }" |) l; _    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
( @4 c8 {9 b: o    
* u, t  z( i% X- a4 Q- [   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行/ j) T) L4 g$ |, L* @8 r* r) U
    # F7 {" u. T# `6 L4 J# O- ^

( A6 j4 E6 q+ t5 w: O' |  4. 校对:
) E! d$ [/ d. @& Q/ N6 H   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
! u9 V4 G& f' P+ ~" D- S/ C0 u  r
0 R- H. c. }- ~. v7 ^5 C; K  5. 其他:
. s: `2 Q9 v; `   (1) 配置文件保存、导入: S7 Y) z9 d4 ?( z
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务# C: R1 R. i; n9 W: M
   (3) 最重要的还是要人工校对!!!!  ]) {6 r. h3 Z" M" k
   (4) 高度自定义参数设置
# k' d+ w% d9 p9 }2 J( j6 G------------------------------------------------------------------------/ a7 x. _0 P1 M& ?' Q3 f' G
如题,放个图:
  b& Y2 t" @' N' x0 s( S
: x3 `" z. D6 V) X2 P( z: j; K; J+ J3 \' n5 z

( j: z4 E  \' q, U
8 k1 {0 a; g. a# s6 ]& _截图内的词条文字为OCR结果2 ~" Q- V: `- K, K
# v/ c0 p3 X1 ]

) d7 b, }/ L; y2 B* s+ o! y  g3 z: z. e4 E$ {; A" M6 U. h! W+ Y
----------------------------20181130更新:) d) W5 k" k, b3 Z! C
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
# G! d  v' H5 ^3 C2 |----------------------------
" W  t) _/ L% ]  C# E/ f2 m3 g' h" M20180809更新:+ _; ^/ C2 {* G; W: Z& b: w
插图画区域由之前的矩形升级为任意多边形
8 L! o" l3 F  O, v) J5 g, ~9 }7 j- L2 X

- v& e5 i$ v. L9 |+ z' h3 L' r2 O& O----------------------------
9 T0 k2 R3 P+ H1 b" U/ h20180614更新:2 A+ K% H- A! A, {/ Y
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
1 R  g/ K2 b  _8 p) y$ A; S单击则替换当前校对文本框中的文本!
7 ?! b0 g  _* P% W+ ~不同颜色提示,方便定位!
2 n2 {8 w5 I# U: l, j% X. L8 ]1 O  @
; }2 K$ }! G* h" b- ~2 N0 ]9 Z7 w; i, o
7 q! o- g5 Y9 a" {  a6 ?  D
3 [% t0 j" D: j' U3 t: r----------------------------
& [; U$ B  w2 I) s8 T8 g20170314更新2:
, ^# ^5 {( f# X9 @校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
% z# P5 ]' q% G: X, a8 m4 \- V6 v2 [; E: ]/ A+ r' F, m0 _" _

$ l! G( _* Q4 O& R9 E; b9 l" i20170314更新:5 @% w( U5 {& f+ V6 x. z  @
起始页-->终止页
, n. K0 g2 Y- ^4 L/ k, L4 n: R[切图]-【词条整体切图】
/ V! k5 E0 ]: y# s---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
3 X3 L% N8 f$ U: d如果起始页和终止页为空,则导出当前页的词条切图
& l' p1 I' R+ x8 e
( s2 t7 [6 {6 j# p% p在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)  ]5 W, i1 h2 i! e3 b4 v
当前词条亮黄色,其他还是红色3 _4 G, s0 q* W9 H$ l5 E; a- J7 l
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
+ D7 R) B* v1 t+ g9 [3 b* H3 U& S
6 R" v8 H! E5 D7 Y' g----------------------------' O& M* f$ j3 x6 C8 k
20170313更新:
) n* j. h9 N- l( T  E/ j1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)4 n- T9 P2 b* {
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
$ E7 `& ~5 d/ a1 K2 E9 U: }  d- T----------------------------* i! H# w2 F0 F7 l
20170217更新:  h* \* l7 W7 s
1. 画线判断的方法改进(2种方法均改进)7 A) N; o0 [9 l* u0 t' h
----------------------------
' I" S8 M+ y- Q# G( a20170115更新:
5 C- {$ \. P7 Z7 b9 U1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
( L! i9 N. ^. l& N9 w9 x2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
1 h( K4 w5 R+ E8 v" L% A----------------------------
; I  e1 z- o  j0 M& T) O' F" i& y20161119更新:
8 \1 X$ u% ^& h9 Y) I1.修复保存坐标数据时的bug% E: o& N& r6 s0 R8 s! n
2.修复单词整体导出页面的一个bug
7 A( V5 f* w6 ^0 a& ]2 }3.增加功能: 选定范围页面的批量导入词条! R( y1 x1 ^2 F1 j7 Y
4.增加功能: 快速查找定位索引
* V) f  x9 a% _1 p$ _& q& l----------------------------
6 `+ o" i' L7 H+ X. {2 T( w+ z20161123更新:, O! {$ z) v7 a2 F( X/ K& Q0 W
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。: Y- P/ m  o$ X6 C+ I& u

& l5 k7 F7 j% }% A; k
  1. 问题:页面是否有词条?
    , C1 T, m$ z: _9 |" k' l. w
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)8 E; Y- P9 M. g6 i/ C' |: q
  3. 2. YES -->
    ( \8 H1 Z9 J9 t5 N0 `# Y
  4.  (1) 确定0号词条所在栏:3 ^' W2 L3 T! ]
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    $ n" j+ s* M2 U) M6 c2 s
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    2 A3 m( O# K( K* o1 ]
  7.  (2) 次数为所有词条数目的循环:
    4 L! b# a& T, m
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    ' j' ~% b% [$ q! r7 p+ q% I# n
  9.   B. 否则:' r# h/ T5 p( k$ ~: X4 F
  10.    a. 下一个词条在下一栏 --> 确定高度
    ( Y! M3 K1 H( H6 ]
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)& D  Y1 c( Q; e
  12.    b. 下一个词条在同一栏 --> 确定高度
    7 k$ k1 p: L9 T+ z; ^, {; A# O

  13. ; X5 a& x5 f; v/ b9 C" Q) p
  14.   --> 导出每个词条的切图5 p) y. p5 h$ C3 b
  15. 9 Y/ I/ s9 j* x
  16.  (3) 确定最后一个词条所在栏:7 L' j" k4 J, r% C" N& c1 e
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

& t- m, K' Q5 @7 A- G" p
/ ~0 l3 M* D' f0 u4 h9 ^' d重要更新:2 M; p- \1 l1 ]$ d; _' Q
1. 词条整体切图模块重写
3 b2 ]5 o/ y, ~2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
4 m3 W$ p7 R" Q& [1 Y
' w) k' X( c* K. V+ M
( R4 W6 |" x$ L! }& }- o! I' s) J, j( A6 G; }
2016.11.28
* }6 A7 |- v* `+ L更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
4 y, {& H$ U$ G7 x) f/ j2 U7 E! d
, s: H& H3 h% b' O7 k

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 , V) d2 x5 k6 S2 K

    : k6 {/ ]8 Y: Z& _8 ~7 c  I我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:391 Z, F# i. i: L. `( k- z
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    3 t1 ^; J5 R( k3 y; {- A$ P) m: ^3 xPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    - U# ]8 _; Y5 ~7 i: L) ^+ o+ E! T! y/ B
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    " V9 D- Q. D  C製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    ' Z. ?2 f% z: ], X+ \9 U8 d是的,这个软件确实极大提高效率,5 b8 s: Q* \1 c1 \* Z3 V* J
    现在个人需要做的事情仅仅为:
      ^1 ^: Z( X4 M1 o- X1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    % Q5 W9 u1 i+ k. j  n2. 使用本软件进行:
    . v0 Y& }+ y6 G* M (1) 全部页面的 自动划线-->自动OCR
    6 W4 C; E1 q6 x# _: @3 E) G (2) 逐页校对划线和文本(可删可增)1 N+ M! }+ m# `8 i6 m. J
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    + ]; E( {# e  O# P& [    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    ( W3 j- V& l3 O$ z' z

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    ; q1 x' S1 z, e( V. Y2 C1 Q% r
    3 d& s& A5 r0 e! P比如《现代汉语词典》也可以画线和OCR、切图等:
    , n& G4 r; V1 u; v, H: M  G----------------------------------------------------
    9 }& l2 u3 }- O* a3 ]8 Z% I画线时:
    # W7 s( }9 _0 r* K4 h- {( @[行间距离]: 17
    0 D" W& `. [) s9 h* g6 F) w[向右倍率]: 1/1.0
    * C/ j. R0 v' \! u& G) h% ]
    * C, ?9 p4 b- \1 JOCR时:
    3 t5 A4 T7 s1 A5 D& m/ r: ~( h$ I[行间距离]: 10
      R$ {  P. E2 c8 `7 A! m[向右倍率]: 1/3.0
    0 m1 t. M) S: f+ x文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查" m! `+ k/ j4 m5 `1 w

    1 C* k% I# u4 t; p
    ' U! r/ y( a+ k0 _: _& L1 X. i# d# d( e- m3 X: \

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11; i2 y$ e$ k! M- `3 y4 ~- u. e
    比如《现代汉语词典》也可以画线和OCR、切图等:  S; ?- X1 d0 J
    ----------------------------------------------------
    6 ~9 y1 x: S) Z! g* h9 s# T+ W ...

    ; d/ A+ l( M% P8 A歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    1 p8 a  r9 l3 C# |& B歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
      q  j) e8 @7 C6 r% Z
    所有图片统一修图 还有轻微歪斜能够画线8 [) _0 e3 h. s( x; u, x6 U
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 9 e5 x5 f" X( v
    不规则形状不考虑
    - z( X7 ]- R1 {支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    : v3 u8 T3 K3 m4 n  Y
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版# B2 v* ?1 }7 H* @
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    . V$ N/ q+ V1 m, y3 ?0 K2 P(出处: 掌上百科)0 Y1 x, F# u, M9 y% r9 D2 A9 x2 t

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    ; a7 w4 }7 O7 Z8 g7 o因为切出的图片数目极多,目前想法是:
      ]' D- z) }& O4 d* ]/ u, I3 G(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置2 `  Z# s7 J# ^* G+ o  ^5 Y) b
    (2) 制作成DSL格式, 图片资源直接打包zip# i' e! J1 y( B$ a6 v1 j0 h

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:581 V& @( P1 y6 v1 Q+ U. y2 Q" ~
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    # T0 Z9 V7 x/ D+ Z$ J5 o7 @) g) t1 `
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    2 @* u/ R  J% @0 g2 j" h也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    6 T0 }; t0 ?0 x, h; k" S/ T終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    5 D& b% [$ Z. |7 g你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 - M, V2 V0 B+ a) d$ e6 }- ^
    chigre3 发表于 2017-2-1 02:04/ X5 @! B- q4 }" `" M/ O
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    5 ^% a5 ?- M! J& O: o( }. X: O1 T
    $ L- C7 p! g! H: O( q, s, N9 e如何才能固定" l- u) P! f! X; M+ e

    * F5 C' Q3 i) _+ ~
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-3 19:31 , Processed in 0.072048 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表