掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 14558|回复: 67

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
' [3 [2 d1 C0 E2 w1 `$ Y. G' a+ _0 P( g  u: _/ \
一、致谢:
* r* R" O) u$ ^) l8 Z+ _, h  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
. f3 p; n. l( N  X& W  x  感谢 @孤影 的自动划线软件, 给了很多界面上的参考% [& a' d- U( I' E2 Q1 g7 y
------------------------------------------------------------------------
8 M% ^+ x% n) Q( v8 g/ r二、这个软件有什么用呢???& V7 }  v9 p: M9 B6 Y
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
) ?% O, r# ?& ]' |2 J  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
, x' g  W3 D8 v& M0 D  2. 使用本软件进行:8 V* @. R$ K" H( O( \
   (1) 全部页面的 自动划线-->自动OCR" ^" w. K) I, x7 I% p
   (2) 逐页校对划线和文本(可删可增)
2 S2 E. ^3 |1 [) s& C   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
" U( a3 C" u" R. m/ _      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典' G2 i5 E! F; v$ n7 `. P; q
------------------------------------------------------------------------& k7 N: q$ D. |
三、实现的功能:
% i" e% c& }; z, T  1. 画线:
" w/ B3 f1 I6 u% x   (1) 自动分析页面 + 自动画线
! A# H/ }9 H! N   (2) 手动模式定义页面 + 自动划线
8 [" E, L( g: D/ R# u0 l# v   (3) 鼠标右键单击修改单栏重新自动画线
6 p  E0 A: C4 x" _4 G1 O# w   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线/ e- m# g2 k. B9 o

7 u5 ?( |- e9 T/ |$ q% B6 X  2. OCR:
" Y/ u: M+ P' v# d6 c% {   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
" h/ q' V$ v$ s2 `   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足. Y5 N; |9 w5 T) o8 f- e, F+ U
   (2) 导入文本8 N! G- f+ ]$ G6 m) J. B8 l- x
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对5 E6 {3 Z% g5 ?3 G# c4 F, J* B
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景/ G: X, c! L* O& P/ ?
- C' }0 b" M, u+ E7 t: U
  3. 切图:
3 R4 G4 |5 a  u   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
# {! Z  H  }& L. j   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html  l. K7 r4 U/ e  ]
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
( \  _5 P0 v% U3 [    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
, w7 [3 r4 B1 T7 D    & {0 L" ~7 r) F! Q' {6 a
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行7 I6 \& U+ Y, E  W; q
    # d* i% q" F: s7 g

* d7 F1 y( o$ ~( V9 V9 r& z; y* R  4. 校对:- \# v0 d, i: `  I, |  Y- u5 l
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
7 m5 R2 {/ B' ]! S7 D# I+ T: z$ g) v4 I6 G% q
  5. 其他:
( M) x5 M- m# V( d   (1) 配置文件保存、导入" Z( U0 v8 \9 ~* a/ x" N
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
: O, L( e% o0 E  s; P5 h$ [   (3) 最重要的还是要人工校对!!!!
- y5 G1 z4 L" X  I3 F$ E+ Y7 ^   (4) 高度自定义参数设置: @$ d9 q  V2 r. K, u/ J  t: H
------------------------------------------------------------------------- D: O# K6 R1 B
如题,放个图:- b  c  E  F# N& L/ P; Z

1 P2 ]5 e" r; w5 l  i0 q8 u* t( n4 b$ s! l( I& l' c' ?+ i
9 f; j& U" }+ ]" s% W) f( h

2 C% S5 C/ m+ N3 T1 M截图内的词条文字为OCR结果/ G! F# q/ W2 V. ]: R4 Q
4 ^+ G4 z5 ^$ r# d* {) K7 }& `

( x; T. \% X" L
& g# U4 D: x9 p----------------------------20181130更新:* a* b7 m4 Y5 H0 D
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
' X5 g% r6 Y: \/ P) @----------------------------
7 }2 }0 B( s! F+ j9 ^20180809更新:7 c% m1 E1 j( j+ i: s) A- ^$ B
插图画区域由之前的矩形升级为任意多边形9 d, D; B; P9 g  \6 a1 y
4 ~, R- i9 q0 R/ O7 W2 w% f: k
8 R  R$ m0 g, K4 O# {
----------------------------
8 x6 {5 B9 c# D20180614更新:+ q- M7 [+ o/ [* r7 ^
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。1 Z- g3 B8 {& S# L# u- I- a$ |
单击则替换当前校对文本框中的文本!! s) |( v) c9 L! K, c1 [/ e
不同颜色提示,方便定位!
6 s1 Z4 d8 Y/ R7 O% V
3 a( n6 r, u% r6 ?: d. Q, c7 Q  C' D( J2 R- d8 `5 S1 Y
. ?# @. g/ F- m; T
----------------------------
& ]: j! [. T/ @9 P20170314更新2:6 M0 y- H4 c6 F0 p* d* I
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
7 w3 _  M2 u" C  w" Z1 `
0 K. q/ J% D! M
! r0 ^  I( Q/ Y& k# ]2 E20170314更新:
4 I8 d) ^0 v3 w起始页-->终止页
; Z2 H$ P9 r+ r3 r4 X& b$ {[切图]-【词条整体切图】
" ]6 D! P( _2 {' P---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)0 |) k4 R5 N# {: f
如果起始页和终止页为空,则导出当前页的词条切图
- P. u# t: w) W1 k* l5 Y* f" U! q% s1 u, |) _5 G( H7 n  c) q
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)* e) ], o) u8 R$ _3 c7 M
当前词条亮黄色,其他还是红色
/ e! ~/ {( k& d% ?. n" T2 w" W, o# \这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。$ d4 ]: I" ?. @- e* O/ B
: H7 F& C0 Z. I2 d
----------------------------
$ N( X# A0 k/ B4 w20170313更新:& a% d! z; H. u6 v
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
" Q9 ^6 l4 \' X+ ]% t$ V$ H  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】" F5 F1 f, E3 E1 m3 g: v, u# f/ `
----------------------------
6 c. ]  N* R" B. S! @+ \- E20170217更新:
3 L5 `5 H" g$ T' F0 D+ `6 a) _1. 画线判断的方法改进(2种方法均改进)
9 W9 V! a! F' m----------------------------
& g# A2 w, c; [20170115更新:' F" |( R9 z: X6 A
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载0 e+ M( U6 E' ?$ }1 y& |
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
' {1 I" ]" d5 S! c3 ^8 q( u: x----------------------------* ~7 _$ q1 U" E5 S$ F
20161119更新:1 f3 u- w7 M; v$ |/ |
1.修复保存坐标数据时的bug
* f5 p- p) \; c* |' B0 F2.修复单词整体导出页面的一个bug
- ]5 H  g- Q4 F* I3.增加功能: 选定范围页面的批量导入词条
3 u0 c+ `3 R$ @, ~4.增加功能: 快速查找定位索引
, ?, `3 r) L* L1 o  o----------------------------" j1 H8 p1 `* R6 i+ o
20161123更新:6 k0 z7 b4 @3 l0 t" y) `. e
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
  a% b! Y5 ~$ c/ t0 Y
- G) E+ {) S4 e8 Y, q
  1. 问题:页面是否有词条?
    8 o1 e0 v1 C/ H7 B+ u8 o
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续); g/ O* s7 F0 n
  3. 2. YES --> 4 n2 j/ i+ m, U1 K3 M& L
  4.  (1) 确定0号词条所在栏:
    ( G% E5 l+ T3 _' @' ^% V9 l2 e
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ! ]$ j5 S8 u1 ]' G, U
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    ) J& u* d& Z2 R  _6 q1 m3 J
  7.  (2) 次数为所有词条数目的循环:7 \1 U0 z4 Q4 u9 N
  8.   A. 若: 当前为最后一个词条 --> 确定高度2 k' F3 D4 d" T3 D3 T( f
  9.   B. 否则:
    0 ]* p5 r- i* X, u7 B7 V7 I$ j* w
  10.    a. 下一个词条在下一栏 --> 确定高度
    6 p) T( {+ W0 J  I( J) l2 z: }
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)! G% L4 w: z, \
  12.    b. 下一个词条在同一栏 --> 确定高度6 h- L; }+ i) X4 u" o, W9 `

  13. 9 z7 I1 ~. O* b; p/ w0 M* X9 Q
  14.   --> 导出每个词条的切图
    / F& U/ ]* ?  w# p& S

  15. % ?+ X. w; E# I7 b8 T  l  h
  16.  (3) 确定最后一个词条所在栏:( |( g6 r- t' D/ R( ~5 k9 d3 @6 a. S
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

7 Y8 p6 O; Y3 O. c+ i- A+ l& q! Z5 o
重要更新:0 T+ M  d+ |3 f+ k
1. 词条整体切图模块重写
0 ~' d8 ~2 `8 A1 n- d& a3 u2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
( W  A/ u$ \; F2 L
+ c, v3 S$ @! Q; f' C* Q/ R/ l3 a$ j" W& R8 Y
4 ^  i6 n$ k9 d5 ^9 I! e$ G
2016.11.28
: E1 c6 i' o8 ~% r3 u* l更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
2 \1 \% l5 ?) b1 e3 b# V
  H. Z" B  c' B  e- x3 k/ y4 B4 ~8 m

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    $ y4 z" |) U1 T
    - a9 v. t0 G( L8 v  ?( V# Y* S  d我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    9 f0 i7 W& E# C' V  ?  L* G嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    ( }/ _- G( M/ _. j, h; s3 J
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    8 M& P" p' G6 p/ J* X/ N7 U1 K$ u5 I9 o- O' ?# c- D+ W
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:300 W- a* l3 c2 ~
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    / a1 u; I- I1 w是的,这个软件确实极大提高效率,# ~$ G, Z7 r7 ~5 @% q
    现在个人需要做的事情仅仅为:
    ( C9 d9 z* m8 |6 X6 v) m1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等1 z# x& i* g) ]3 `* B( b
    2. 使用本软件进行:
      z  f. i" Q. c$ D# ^& @ (1) 全部页面的 自动划线-->自动OCR8 O1 Z+ m& ~! N. F; h
     (2) 逐页校对划线和文本(可删可增)- u) ^: G: i1 t, ?3 p1 z# o3 {) u9 D
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    1 H  F# h" }+ T* X& j    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典; ^$ p7 p! c5 |1 m) O. r+ c2 G

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑   W% \7 E, P8 h! s$ {1 @# ^

    * X: i/ }. e8 m比如《现代汉语词典》也可以画线和OCR、切图等:  F1 J1 @6 z# r+ U
    ----------------------------------------------------( n7 P, I6 b3 P6 c5 |0 i) @9 u
    画线时:
    - D0 z0 c7 G) T[行间距离]: 179 J1 K% t. Z! z
    [向右倍率]: 1/1.0
    ( `- ]3 z. U9 R% |1 d& d; S% L* \5 V: U0 |+ h
    OCR时:
    3 y0 E. Y8 Y/ a. u, H. a[行间距离]: 10! N1 f# u9 p# G; j
    [向右倍率]: 1/3.0! U' c9 A* f* q! G' b8 s' c
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查7 }3 j+ f. E8 m2 J8 Y) C
    , d1 D1 m, L0 g( l
    6 f1 B0 v8 z' ^1 q

    2 f+ k( N( x+ N

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11- ]+ ^/ ?/ j+ V8 ~+ @
    比如《现代汉语词典》也可以画线和OCR、切图等:
    + E# Y. c/ E) R$ x+ l& Y7 @- ]----------------------------------------------------! |) Q: t6 x0 e; i
    ...
    8 C( ~7 S9 I  @% ^& @' m, g1 h
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    * O8 D) X+ z' S7 C( F8 N! X歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    3 l, r7 K9 [# P$ c1 O
    所有图片统一修图 还有轻微歪斜能够画线. t4 O% P$ y4 y: K+ _/ M
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 $ J- ?1 N( ~: F' C' z; G* p$ S6 @
    不规则形状不考虑 0 K8 T# z- S% e( A  ]3 `6 |
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~3 d$ \; ~% B% t0 ~2 T
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版$ ^7 Y& d! |0 h  R3 e
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    - t/ C/ I6 c; a) W(出处: 掌上百科)' d0 v5 E  U& Q! o

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:5 D/ [* G% ~% J
    因为切出的图片数目极多,目前想法是:
    " w* [) l) b3 ~. ~$ Y+ J# E: `(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    8 ~! }6 F* |6 a, S(2) 制作成DSL格式, 图片资源直接打包zip- R* u1 x9 K" L% }" o3 g4 x

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:587 a7 W4 {# E6 s' k% U! ?2 f
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    ) f. V. H* L. b9 A% t所有位置的切图都是分离的,后期导出时同时导出对应信息
    + `* Z1 O, Y! q也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58; B7 T+ @/ w& J8 M  d2 _: U
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    " l7 N& \" G1 ~# s1 r6 q8 I* d你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    ' s3 r3 ]9 i$ ^4 L8 Q
    chigre3 发表于 2017-2-1 02:04  h! t$ m$ c. E% e8 b3 l& d6 x* J
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

      u$ B( d% l2 a1 w. }: V+ i; e! |3 {: v9 ?8 }  O
    如何才能固定4 u4 F: K$ l, q3 ~
    : j/ m$ Z( Q/ |, l
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2023-10-4 22:47 , Processed in 0.061933 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表