掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20119|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
5 R8 b( j% r+ _$ D$ T/ |, v; s0 g. G* y; s
一、致谢:2 B1 |. g6 }, a$ T: F
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture8 J; c- }# q% j) ~
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考! ^" \. [# s$ s0 X; b
------------------------------------------------------------------------
3 ?; r4 S6 L/ `  ?1 q/ c: I" }二、这个软件有什么用呢???( L# J/ V: _& I& k2 H1 w( w6 q
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
+ r* K# B' Y+ n' M: x  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等/ n5 A8 z3 w  ~4 b
  2. 使用本软件进行:
% l* l% O4 P+ k9 q   (1) 全部页面的 自动划线-->自动OCR
9 ~' |+ u4 Y+ _5 }2 _' H8 J   (2) 逐页校对划线和文本(可删可增)
0 b" z5 }- n/ v3 \& K, ]   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
& a# Y- t8 A$ V% V0 p1 J0 c      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
3 M9 P4 S- n  d7 Q& O------------------------------------------------------------------------! f; B$ S/ B! t, z
三、实现的功能:
( ^3 G- I! u$ g4 {2 \( ~  1. 画线:# M3 `( v) ^5 I1 s9 v
   (1) 自动分析页面 + 自动画线
/ s8 D& F; P- U5 G   (2) 手动模式定义页面 + 自动划线
: G. f5 k! ^2 C# z   (3) 鼠标右键单击修改单栏重新自动画线
) C  M2 c" [' M0 ?! T   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
# W5 {* |* d$ X+ p
7 F; H0 Q9 n3 Y" d7 B7 y' R  2. OCR:. j& i4 U/ a6 l
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
. Q$ h' t3 M4 e! l: Z! f2 Q5 g3 _   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
  z1 ~. r; L5 e  C   (2) 导入文本4 z2 v) ^; z& t. b( h/ n3 [3 w
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
, L1 i: `9 W6 Y, k& v4 p8 V  c1 `8 {   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
8 A" r  C% F9 }# r; L$ a6 J2 ~2 S+ F( }. }+ _7 T
  3. 切图:3 i6 ~" o4 l, M  ^- H1 e( b0 u2 ]
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途9 c$ O& `& z' x7 O
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html9 h8 ?" B+ ^% L+ s# p
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
" z! S1 n8 |. S2 b5 B7 O* K- L- N( X    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481$ P& u1 u% g5 \
    + @" S) q3 f& l' I8 b: v& D
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
6 b: O6 \6 w- i  b( R4 S    & M, m. G( W8 S+ O7 Z6 U$ t1 h
" a8 t- r8 C' U
  4. 校对:* I. N% o. i* G, Z( f) o! C0 H+ [
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
+ w+ J# {5 L) @; P! @. {% Y
, d6 m+ ]& s; N" Z  5. 其他:
" A3 b( X4 O  o   (1) 配置文件保存、导入+ k7 K  s; D- D+ w5 v9 {
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
9 k/ t+ ~+ W& v$ @* a% A3 v   (3) 最重要的还是要人工校对!!!!
, w' r3 \, q2 {( O2 `+ f( q! A* W   (4) 高度自定义参数设置, V9 c1 @1 s3 f) I
------------------------------------------------------------------------+ X7 k( @2 R% U# v7 P. r8 b
如题,放个图:
6 j/ n0 u6 U7 x0 a; z3 G6 s3 a* r$ G; n6 A+ f+ I% z
5 t0 k* w2 e4 F* V: d3 @& ]
, Z% @+ t( _; [6 {! L4 p
+ D; B' N6 Y" ]& k! N
截图内的词条文字为OCR结果0 E& v8 Y8 v5 v% c$ O( H

; V3 G! n! e$ u, {+ K2 \
& o8 L0 [; H$ [+ l' Q4 X$ V" H, x8 W: r. v
----------------------------20181130更新:8 Q% F0 z" t) M" z! {
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
& J; y$ @/ G$ u8 r0 |----------------------------
- X7 ]- J/ i* v* a20180809更新:
0 j  n+ y0 n; H5 [# \: _; @插图画区域由之前的矩形升级为任意多边形
2 }; L' O" O0 n) o2 m& s! x& ^. @9 ?, B( k1 I2 g; L

3 F2 j* q9 O$ W7 E' a( d$ l----------------------------  @& O0 V) a9 Y3 W% x8 H
20180614更新:
; ^6 q! J/ G/ r8 l) G) V在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。+ ]2 x0 D0 j; z
单击则替换当前校对文本框中的文本!
9 e7 R( ?4 o; P( k! f2 D不同颜色提示,方便定位!
, S6 |; {- e) o2 @. f. j* M5 b9 Q0 G
4 W% ~% `7 e& [0 B
. Z* V% _* m7 y8 D* ~
----------------------------, }( |! p- |. V4 K
20170314更新2:
5 i9 f7 C# J9 y" m9 D校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
7 Y# k6 k# p# E  e' X4 d/ D* G. R$ ?2 H2 @' O
  O8 S- ^' O3 @0 a8 r
20170314更新:5 }4 r' E! d% H
起始页-->终止页# `. ?4 j) T; v9 Z! S% S
[切图]-【词条整体切图】( h7 t: E- P  q8 l
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
0 q( E* H/ c. C) `' i8 J+ \如果起始页和终止页为空,则导出当前页的词条切图" L' g3 U+ w- T: L' B

$ C, K1 T* @; e0 ?在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
$ `% Y/ v- H1 v- G. v当前词条亮黄色,其他还是红色" ~/ e) Y$ _5 n+ a. f7 E
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
" K4 J  ]8 \3 \) j$ q* g3 U7 A, O/ R
----------------------------
9 _6 P. C& a. {  n8 [5 J6 S! E20170313更新:% ]  J( f% P- r# W4 z: X# x
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
0 P. g. O$ y$ ~1 T  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
! P; U: K' p* z: [; c----------------------------; z% S3 X' Z8 U& r0 ~1 f
20170217更新:
: h+ o! g. O; d1. 画线判断的方法改进(2种方法均改进)
4 B: Q$ R, |1 x----------------------------9 g/ I) ]  u# ^/ E1 l  }
20170115更新:; z8 X: |& e3 W1 Y8 S
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载% u$ L- `# R: f7 b1 a% C
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
+ R. }- X+ i- b  ~----------------------------4 v* u0 j- X) ?  q* W2 m
20161119更新:
, C8 b, S+ z' c5 X. ^8 I  p1.修复保存坐标数据时的bug
% I# _$ i; x. j! _2.修复单词整体导出页面的一个bug
7 s; i* P& b' P" a7 n! {6 h' x/ v3.增加功能: 选定范围页面的批量导入词条
6 I1 x, c% |/ B1 l4 d4.增加功能: 快速查找定位索引" h& Q0 o/ g0 G. s$ K' K
----------------------------
3 k  x& {8 l% Y+ b20161123更新:
! L; K+ C, I; w( b重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
. F3 M! z* b5 X' @5 e( r: r$ ~$ {# \( I* w4 C0 w
  1. 问题:页面是否有词条?: s+ {1 F) j2 V* Y# w$ u: I! h
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)& h, m) G8 B' y' m- M# U
  3. 2. YES -->
    % z6 U7 g- q  S2 E6 @* u
  4.  (1) 确定0号词条所在栏:$ t+ n" P  s2 y
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    ( r0 u  S+ q4 {% b3 M9 I8 ~' H" Z8 R
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)& s9 q" Q- V9 B! ]/ ?+ b, q
  7.  (2) 次数为所有词条数目的循环:
    4 P( b' g% M0 }3 c; P
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    # T1 }  M' _9 `+ H
  9.   B. 否则:
    4 [0 [/ M1 P$ X/ m) A8 D1 X
  10.    a. 下一个词条在下一栏 --> 确定高度2 g" `$ H- ]2 L8 L
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    - `( }8 B4 T4 _! \3 }% d
  12.    b. 下一个词条在同一栏 --> 确定高度3 y2 z# ?' u1 i- f, j% V4 ]

  13. 6 S  S0 {: s) h. j1 k* ^
  14.   --> 导出每个词条的切图
    ! x- C/ [: w! j, N
  15. : ^& S/ I$ H3 e* O
  16.  (3) 确定最后一个词条所在栏:
    $ r& v, D( w. v4 o
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

4 r, e, M) ?+ T  B* e, y
8 J2 `: ~9 @  i; q% t4 v! w: R# ~重要更新:" j: w" X; j" O' Z8 ^4 u
1. 词条整体切图模块重写7 l+ T7 M" C; b9 J) ~% U
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
6 ~5 f7 Q7 z4 ?  x3 Y. c1 c3 n- N( J( O) o9 o" f

3 V. c5 [/ A) C% Y1 [; B2 l& K/ z6 w* u$ c! D9 t5 N; p6 Z% `+ J( Q6 x
2016.11.28
' @, j: H. F3 [$ q, [& m更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式); P* L8 {' h2 a( L* w

5 L5 j2 U  ]# P

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 : X; D. z: W# T
    , Q& J/ x) P! `6 `! V  i& N! P
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39- C" S! u$ v6 r: e3 ~1 j3 G) A8 Q  i
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    ) \5 Q7 O2 t2 M% |* u  \7 @( dPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    - O0 ^8 r) [" S9 L
    6 i" [2 g/ \* b, `8 T4 c& ~可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    ; ^8 W5 U2 ?* \5 S製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    8 F0 M& i/ ^. ^( S是的,这个软件确实极大提高效率,2 K8 ]9 d% z" L' n% k. z( i" @% W
    现在个人需要做的事情仅仅为:
    ; d. ?" @, F, A1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    * [1 P2 x. j% O" B  o6 A8 U2. 使用本软件进行:
    , i& i9 }- w0 Y1 _: B- p$ n" c (1) 全部页面的 自动划线-->自动OCR8 I, a4 Q- i0 \! {7 j9 M4 w
     (2) 逐页校对划线和文本(可删可增)
    4 P  ]8 R$ g9 Z5 T+ ^ (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典0 d. m& L  s& s# m' o/ Z  H/ c
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典2 P& `$ L. K" }. Q0 y9 \

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 4 U& t8 F: Z2 j, y/ _1 I' h
    6 M5 |/ n4 X) j5 n2 ]
    比如《现代汉语词典》也可以画线和OCR、切图等:4 m2 p. ^7 M8 [$ U
    ----------------------------------------------------) r+ t. Y2 @. u, [6 }
    画线时:- U: Q: X  T& z( W
    [行间距离]: 17
    2 R+ g7 i4 Z! a" b3 O. S7 F[向右倍率]: 1/1.0
    ; p$ N4 m6 {# B* q
    . r" B+ u7 O4 f  B8 o0 s6 hOCR时:9 m) H6 ~- {& H: w4 f
    [行间距离]: 10
    ) I& `. K9 k; K0 D[向右倍率]: 1/3.0- [% t4 O3 k/ F$ l
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
      [7 s) n- d6 `: e+ O
    6 E. f! h, e0 {% _5 J) i# F" }4 J9 e" ?1 U  x' z

    $ a. A/ C9 ~6 Y1 b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11  i" s6 Z/ x% M/ W
    比如《现代汉语词典》也可以画线和OCR、切图等:; K( B" f. L( u( a& {
    ----------------------------------------------------
    7 V8 U8 Z. D4 T. w& Q* b; n ...

    . u: I% U) n+ h8 t9 }1 E3 z: x歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:096 ?( T) ~& |/ }2 k+ E
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    ( q- S2 W# F& r所有图片统一修图 还有轻微歪斜能够画线
    + _& C9 [7 c2 |) v1 h$ X图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    . e2 z5 o2 @# }. K9 s, y不规则形状不考虑
    9 D4 r, c8 f# _+ q8 H* a支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~2 P( Y8 [/ i+ ]0 c
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    " [0 _! q5 a1 R: Hhttps://www.pdawiki.com/forum/fo ... &fromuid=174481& |/ j, k. Y6 Z8 X6 _$ A4 E3 D
    (出处: 掌上百科)+ [5 h- w, S7 @6 A. y2 F

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    1 R" z) t$ `/ O) c% b2 _2 M因为切出的图片数目极多,目前想法是:
    : V: e( W/ b- u& G( ^% T(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置! N: p. E2 T4 H2 @! r9 B) s6 g2 U
    (2) 制作成DSL格式, 图片资源直接打包zip
    - S5 w' ~% F; X; H, K+ g

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
      [% l- s: ?6 j& }8 p4 W8 A# X, r終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    * t* }" o+ F) K所有位置的切图都是分离的,后期导出时同时导出对应信息# F- W9 w* S- b3 a4 z* O! m
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:585 b. E! P0 A: s1 X, }# q% }
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    6 f: q6 s7 M5 B& U7 G
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    $ [2 K1 P  |8 h: Z6 i5 G" H
    chigre3 发表于 2017-2-1 02:04( ]! ~8 h& f' h/ `" i
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    : i: x" `% Z# P4 j+ I
    3 [. R' {8 M- g8 t0 \
    如何才能固定2 X3 `2 y4 w) v# `+ _0 V' @
    , O0 F  ?: H$ A# j$ I
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-27 23:31 , Processed in 0.027055 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表