掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17641|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
/ G1 j5 Q4 |: I( b6 @; r' S* l9 c2 o
/ c: m- c+ F7 f, H% v0 w* v一、致谢:
9 @; B+ i4 ?; M7 ~  s8 n' Z' ]  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture& g. d& d+ @8 `
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考( V" S$ j# n% W# j' z' W7 @
------------------------------------------------------------------------8 A6 u! g" U7 N( e; ]7 @) W
二、这个软件有什么用呢???) d4 P, s1 y  u+ e
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:  E8 q. M( f- N+ S3 a- n
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等( X& }. l: C0 Q: Y& j9 b0 o  H( H3 o
  2. 使用本软件进行:
) a8 q' T% z* [" [) S   (1) 全部页面的 自动划线-->自动OCR" \; f7 Q0 o% M5 w1 e3 S# |
   (2) 逐页校对划线和文本(可删可增)
0 L* o! `9 p( ^   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
: D9 e+ D6 ^5 S5 t9 `* a5 V      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典) ?1 Z; Z; d7 X
------------------------------------------------------------------------
6 K4 j1 A$ C. T2 R  w- s三、实现的功能:
) |2 n( s; L' S/ q% k* n6 W  1. 画线:
; Q; o6 e) s+ r$ w9 f   (1) 自动分析页面 + 自动画线
- U8 ^4 e- _& s. U   (2) 手动模式定义页面 + 自动划线
% W3 s. _6 f! L% h! j   (3) 鼠标右键单击修改单栏重新自动画线
, Y& `% r2 H5 W7 A  B3 t7 [. Z   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线& T4 u  J4 G; X! x) I* H) P) P

% ~* f: H7 e! I( A  2. OCR:
  p4 I" Y; U4 q' u( L   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
8 ], Q1 n4 D; o3 K/ I7 X# t. x7 h   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足- M4 V5 c1 ~. P7 C, c
   (2) 导入文本
: ?6 J/ Q0 _/ T5 B4 N   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对8 P& P5 ~( T1 @3 U: S
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
* C' X) B( d% T" r
; u8 k" I9 C1 A  3. 切图:* b' L7 x; P$ z
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途& d, R. y* I4 f9 r. I- Q/ `
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
+ n; p) y2 ?( L    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html# d) r- \) @$ B4 `  y
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=1744811 n6 P1 S, G& B9 ?/ s( H. F  G
    ' R1 t( n9 Y: T8 v- m! z
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
4 J: W, ^) G3 f' Z3 f    
: A8 k$ u% K; U3 a2 G
1 y  l2 S% `8 u! l  4. 校对:
4 D5 @  D0 T1 e; e* W* R* x" ^   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
+ F5 C% E  S8 U0 {+ i! T: p% ?. a
  5. 其他:
& t( l6 k! X% R9 M! [; v+ A   (1) 配置文件保存、导入: q$ W' n3 G* A5 s* T# P
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务  B+ `8 I* n+ {
   (3) 最重要的还是要人工校对!!!!$ w. x8 I) \* r: w4 G
   (4) 高度自定义参数设置
6 q" G* ~6 K- ~" c4 ~+ \------------------------------------------------------------------------. m5 q, F5 _8 F! d5 c4 }
如题,放个图:
$ p) K2 h$ d5 \  {8 `6 v3 d" s8 S( k9 j4 {* h
2 l2 x* Q8 y2 n: m  X2 }: C$ c. J
) }9 H8 P6 y7 v" h9 \0 {+ Y( D

/ {) T( s! U% G4 J. f" a截图内的词条文字为OCR结果
2 C' F/ I9 W! {$ a% W0 S; ~! o7 O* q: p- C$ A
( ?9 ?& `' s5 w4 k2 R
& R) ^! l& A3 W4 c0 w/ f) W$ E$ M
----------------------------20181130更新:
! o/ i1 j$ u8 V2 B' d8 M+ `校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
7 Y) f3 [3 i7 b7 ~5 X  h+ T% X----------------------------% I: o6 h$ ~' L& T  n9 Q  w1 X) x0 p
20180809更新:, y% R6 }! I8 i: F7 w4 A
插图画区域由之前的矩形升级为任意多边形; G, d+ C) W4 Z( r: J9 O

% J9 w# i& G7 `% t+ \" j
- f! c- w7 V" m----------------------------
' ]8 Q2 H5 s1 E; [* V- J: V20180614更新:6 x' i, x: Q, Z
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
% S- {7 @/ \. ~3 _单击则替换当前校对文本框中的文本!+ L' S/ Z% o$ f6 q
不同颜色提示,方便定位!
( ~7 T0 W9 ~  A0 a. Q$ M
4 _0 c& @' ]: _' M9 e
; p/ A2 M& \; X& h2 T$ v
& I4 q9 V  a3 I% A; X/ R----------------------------
/ G  h; ^4 B+ k1 S" H2 G8 N20170314更新2:, F  K2 C* r, _+ c  u8 L" M
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
$ [, F: U4 h* F3 I( g( L9 M- Y! L8 p) I

1 e3 g; o* [4 S+ K20170314更新:% W9 j4 E- x* S6 ?# M/ Z1 X
起始页-->终止页3 X/ F# B4 |, `& G. t% V! x8 h
[切图]-【词条整体切图】
+ ]6 ]- J6 ~& ~6 E! N0 z---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
/ _3 A/ I/ P' [; ^: r- ~如果起始页和终止页为空,则导出当前页的词条切图
  k4 h3 e0 e" O1 q' s3 S9 \0 X$ ~
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)2 j6 W; i4 T" [' N6 b
当前词条亮黄色,其他还是红色  K' K' S8 T0 {! x$ ?/ ]
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
2 B: N5 F7 b5 S# n2 P; J& W" n) D( s% w6 G/ \
----------------------------" @3 c! r+ }, L( L0 c
20170313更新:) C/ v; ?! x* c$ u) @5 g  N" A( c
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)+ P% H0 W/ R, d% Y5 \" C
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】5 u+ C) E0 H6 N. b$ k, k
----------------------------
4 i1 v: n( n3 ^- p" t) V9 Q20170217更新:& U, c% d/ V; j+ V$ L! h* F6 _  ^
1. 画线判断的方法改进(2种方法均改进): ^" E! J6 v+ h2 S# W+ r1 d2 T. A) T
----------------------------
9 _8 w$ j1 W( {$ c7 H0 y$ @, I) j20170115更新:
$ P; T+ Z5 T" J8 ?1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
8 \# i2 l" C, @( X2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)  o2 X/ h' ]% e8 h
----------------------------( S; t0 u* w+ k' Y* a/ F5 ]
20161119更新:
2 \2 d* _. e# O& `0 i; x1.修复保存坐标数据时的bug5 F5 F" t. K& Z0 z8 y# h( i2 M  f9 F
2.修复单词整体导出页面的一个bug
4 u# J9 T9 S0 A$ i; W7 Z3.增加功能: 选定范围页面的批量导入词条
! t7 J2 G6 M1 S2 {4.增加功能: 快速查找定位索引8 k5 F" ?9 q/ o3 N! z- j
----------------------------
2 S4 o7 e+ _9 D1 p20161123更新:
$ p1 C' k  `' @( ]  Q- }重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
4 k; a: b  m8 r1 ]* Y8 h9 h" a& f8 i: ^( y
  1. 问题:页面是否有词条?
    8 z. @& d" j" H, p$ W: q
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    - |! t( ~& g! h* [5 ^
  3. 2. YES -->
    . x: U5 a: S# u  ^3 k
  4.  (1) 确定0号词条所在栏:1 _2 R" r5 }( m
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ! ?  X2 ]0 f6 ]  a) B- u
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    9 V* s% _' V8 f/ J* l  K
  7.  (2) 次数为所有词条数目的循环:
    ) t. D4 Q. w6 ~  e0 I4 C5 k
  8.   A. 若: 当前为最后一个词条 --> 确定高度8 A6 Z: o4 M' o  q& Q9 u+ w  S
  9.   B. 否则:( S, m7 V5 P1 V- ]3 e
  10.    a. 下一个词条在下一栏 --> 确定高度+ i, P* @7 S6 D
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    # b2 [& }* d6 f/ I0 V5 F
  12.    b. 下一个词条在同一栏 --> 确定高度
      _5 R* Y" j  z% B' D' R

  13. 8 _+ }! }: X7 k7 Z" Q; u
  14.   --> 导出每个词条的切图
    * ?( \3 H" f% E

  15. 3 z) O) |' }3 m1 e. n
  16.  (3) 确定最后一个词条所在栏:
    * k- g& P! w* C4 e
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
/ c- D1 t2 Y* p' y5 I

) t3 o( x. N+ A1 K0 ]; `. |重要更新:' i1 Y/ E! U3 p6 K1 q
1. 词条整体切图模块重写
3 s) p$ t0 \. Z+ x2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
; k8 b. D) {: S( u5 Q
. q8 p/ P, j5 {$ @& o
- E0 ^! s5 e1 c5 Q% ?1 j- Z
, m; B! Z9 l; m% Q) e5 k  W. Z2016.11.28
. z9 v# v/ N9 m9 E& @! y3 ^/ \/ z更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)9 h1 p$ j( b4 H; o1 ]4 G! K/ m

; P# W$ @5 g0 o% `

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 + P, f; v, p/ k* o7 G+ s8 n

    5 a4 A0 }8 n7 ?" I/ M$ r+ d) j+ {) _+ X我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39* p4 u  {6 k! M, M  [  I
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    4 k) U/ }  S: J6 F$ c  L. J7 MPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑   L; ~, C8 d7 F! _1 u0 ?# ]& v, i

    - p0 `0 K$ b7 @0 W可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30! [7 f5 C6 G+ x
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
      |7 S' o: k, D2 [! Q0 W5 w, N+ R4 P
    是的,这个软件确实极大提高效率,
    ! c" s: S; V% J: o" f1 F现在个人需要做的事情仅仅为:
    5 q7 r5 R; b+ X! |6 I1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    5 V# P$ w8 A: m$ R2. 使用本软件进行:* a; ?1 A- {. c8 t( p5 x. Q: [
     (1) 全部页面的 自动划线-->自动OCR
    $ @! c. {. D: E" l$ D (2) 逐页校对划线和文本(可删可增)
    7 a8 T6 }: }+ `" C2 N# M (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    2 u/ O1 |5 q* J  J* B    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    ; v( B6 v9 t3 o+ N+ N3 g7 Y  N

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 # X4 ~' ^+ ~+ n

    ; J2 a! y% ^+ g! U比如《现代汉语词典》也可以画线和OCR、切图等:
    ) Y! A. ~! i2 \5 G5 u0 f: {$ E----------------------------------------------------' x2 J  t, d4 E
    画线时:, g/ _- s( }# M! ?$ j  G  _- W' x
    [行间距离]: 17
    ; H& P7 O& p4 b1 O! }[向右倍率]: 1/1.0+ s- F& z$ g2 i, @' G4 Z( v0 }

    6 |/ B/ V& R# TOCR时:' B, q9 `& R8 E- s  a3 q
    [行间距离]: 10
    * \4 D) Q! d$ |; f3 g, w; y" t[向右倍率]: 1/3.0
    ' o' d" L' o. S# x( }" @  L文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    + e0 k' i% w! Z' {
    0 M9 {. x( Y6 x. S% Z! {( I
    ) N3 m% @  z5 v. J. w9 e+ j+ e! }9 S( Z9 c

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    ( W/ Z! d, ^) A9 l7 m* ]5 M比如《现代汉语词典》也可以画线和OCR、切图等:7 ~! U5 p, }  s$ [6 r
    ----------------------------------------------------
    : `- P1 o( a% l ...

    4 X  H3 S0 E( W歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09" ^# W# _+ _* R5 q0 i  C
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    ; A, Y  Q: \" \( w  ?& ]: m所有图片统一修图 还有轻微歪斜能够画线* j7 j- D: M0 m3 Z
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    % e8 L! V. p' c" ^不规则形状不考虑
    ) j$ ~3 X5 L( [7 ~5 p支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    4 P2 z' n0 l& k( T& o. B& t# m
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版, _. |' _0 ~( L: T- C, a2 Q
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    9 Y8 Q9 f4 z; t* b9 n, W  k: }; n(出处: 掌上百科): d+ T' l) w- ?

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:  I5 F2 y# ^8 H. o- z
    因为切出的图片数目极多,目前想法是:
    ! Y1 U3 Y2 {6 j' s( h(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    - U3 ^9 `: S" ~(2) 制作成DSL格式, 图片资源直接打包zip
    # o& G. Q) n' y) g! W8 r0 E

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    " U# @5 _6 ~3 J* q終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    : Y! f- y' \( T0 Y) b4 u7 z
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    - C2 l: d! I# f6 j2 j7 V也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58) K  t2 ]5 J- J9 E7 ^- p( K8 W
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    7 z- ]: u% v) L$ g* U你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 1 q8 m7 x7 G0 Z5 {
    chigre3 发表于 2017-2-1 02:04% T/ Y" E) v8 v& Z
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    7 Z# S- w+ q' [- J# S7 u" c4 g& k: V$ \( Q1 B
    如何才能固定3 {( x% `0 ^' Q( ^  \" n4 a
    # K* A5 `  L2 V* v' a4 ?, h  q
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 12:46 , Processed in 0.070155 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表