掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17491|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
  R) M/ M% }1 ~6 E/ S. X' H$ d9 B/ p
一、致谢:0 p. y2 W0 ~& h, U; M, R7 T
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
" h; ]! T4 c3 a7 }" h" H6 h  感谢 @孤影 的自动划线软件, 给了很多界面上的参考4 b/ r6 R- R; ]# Y+ V0 Q$ [( A
------------------------------------------------------------------------" }5 c5 P4 P9 }. B% P: s
二、这个软件有什么用呢???: X1 E, e1 x3 k" N8 T
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:) S; A# P* A2 w- x2 K
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等6 X2 z3 Z  P- C. S  C2 `; j
  2. 使用本软件进行:' E' C* J% ^1 A2 w0 z9 h- _  B" q" P
   (1) 全部页面的 自动划线-->自动OCR5 I# A3 I; z- x3 ?
   (2) 逐页校对划线和文本(可删可增)3 e) C+ E8 F$ z2 D
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典( w! x% C, {3 [0 f. i$ I- b
      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
! Y% o7 n( \* {& ^------------------------------------------------------------------------
5 m, ]5 Y; n9 H) m/ D( b三、实现的功能:6 X6 K3 f5 Q( y, W) P1 \$ Y1 i# m# F
  1. 画线:
2 b" g! k/ s3 l- I   (1) 自动分析页面 + 自动画线$ a# f2 N5 ]' u
   (2) 手动模式定义页面 + 自动划线
: `( i& H4 B1 Q& |8 ?* w   (3) 鼠标右键单击修改单栏重新自动画线
8 n8 |5 z' `0 E7 [+ T   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
- j: C( h2 r7 h% M' a# s2 S# ~! d( ]
  2. OCR:
0 r4 z/ p( \" n3 Z+ D2 F   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
' b6 c* w; Y' l2 {% b, M9 z   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
4 \1 F! U& k% {, c* w. A   (2) 导入文本" p  z5 j$ s5 I% o" o- G* c) l
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对- q$ L6 v& s7 f6 ^+ @6 i( ^
   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
. _5 w- P% B9 ?2 k  w, e  u+ R- A- Y  V/ h! G3 n, u
  3. 切图:/ ?; O2 d" G) J, q; w+ W
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途" W# c3 Z" B5 g( Q% Q4 N+ I
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html: Z$ R, ~9 k& K, `) N; g
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html8 j/ w* j/ ~( ^8 z6 f
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
2 H( v+ }0 ]/ A7 A# u    / t  w+ l' U. N& O* e( A+ [
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行7 B+ D& q. R; n
    
% [7 H& k" n; f8 w% v5 P; D% t" I' p' E8 \
  4. 校对:
! X( v" |8 @; W: Y   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
, M' K$ I2 l4 e1 U3 y( h0 d0 s( F$ i
$ U3 A7 y8 W( _, s  5. 其他:
- b6 L8 a- e! ?1 y   (1) 配置文件保存、导入3 a$ n0 j+ `) \- Z& y
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务5 F8 H; N. l5 ]7 N' A6 k$ W# G+ c
   (3) 最重要的还是要人工校对!!!!
+ p3 q1 H3 w. |& q& S. p   (4) 高度自定义参数设置
) P6 |; Q9 i8 W) }------------------------------------------------------------------------
$ n6 N6 f. ?6 s# i2 m/ b4 ?% V: ]如题,放个图:- X5 v$ Y1 `  Y8 P# W: H$ S

) n5 f0 Q4 X  m$ g
( n1 }9 H, _  S1 o0 S0 v, U) l2 q+ c  L) ~- s# u5 a' v  R, f7 R, c1 A
2 \4 J, D: r5 O7 q( }( q
截图内的词条文字为OCR结果; [  P3 ?% {* N0 t( ]
) U& M+ `2 X0 S' `

& M% w' Y& b3 ]; ~/ |
, B; B7 c, F5 i& F1 f" i9 X----------------------------20181130更新:
* @: s* h/ D1 T' L: B校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!( D2 P6 w: B6 ^5 X0 w+ x
----------------------------
% p& U; E, R& F* U$ l5 H: i20180809更新:$ ~2 X6 O2 S- a$ X6 P: Y9 H$ |
插图画区域由之前的矩形升级为任意多边形# Q: }& q; U  f; q
' y1 G6 T  o: b7 D% t
/ p) N: l* _$ d: C
----------------------------
5 J# q- |7 |9 n9 W4 h) @20180614更新:% T0 B. E7 {2 v5 \. Z
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。3 p- s0 C+ Q. }9 k
单击则替换当前校对文本框中的文本!6 I$ A  }! z7 z" P
不同颜色提示,方便定位!
" {8 U5 [5 F. ?8 n* z3 g& |7 j' x9 v" v. ]
7 g$ Z" s7 A1 S, `$ Q" k

" y+ i% `- \, T# Z  i! W6 f8 Z----------------------------/ V" |! R5 F5 r1 Z3 S( x" c
20170314更新2:  T3 B& X; m& |, P. x) ~  \
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:: a8 @2 F, _/ ~6 x9 i7 o4 l

- [1 {* g1 V$ q# o: c. B$ {$ O! h1 S: B
: X+ Y8 L$ [/ o+ u3 @# O" ^5 p8 f20170314更新:
8 X% v& x9 m5 @5 [5 ?起始页-->终止页) g1 M  L. H  Z0 r2 |) n
[切图]-【词条整体切图】
8 z2 e. |; S4 A---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)- v: `9 H2 f& A( \6 I+ T" C8 [
如果起始页和终止页为空,则导出当前页的词条切图2 ?& U  N# G8 {3 b7 Z! k9 W1 N6 `

' \: N1 n$ h; I0 m在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)4 ?9 q' g9 i2 ^/ }5 e
当前词条亮黄色,其他还是红色
8 g# {+ @$ F# d( f这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
( y2 w8 v+ Y% {: b$ K- d1 X& P% p7 ]# k- i
----------------------------; V( Y% r/ _* x5 |  d
20170313更新:
4 [5 q; j# d% q0 V; q1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
" |9 X8 @9 D: U  K  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
% C7 Y! o* Y2 j----------------------------! `. |: N' m: _4 k5 i( P
20170217更新:
/ C: y0 m( O3 z, }7 Y( a' `' [1. 画线判断的方法改进(2种方法均改进)
9 N# F3 v" x, e( ]& ^% ^) q----------------------------
! N9 |; t7 w9 P& b20170115更新:
7 ]4 P$ E" {4 j3 K4 H0 p' J. A1 C1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
' \, o6 L' S& Q2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)+ w- S6 I/ G" H5 ?0 F
----------------------------
# i/ N1 E* p% @7 d4 `. [20161119更新:6 ?5 l' {# J3 ]) ]# H- K9 i
1.修复保存坐标数据时的bug
$ @5 n% e+ |: [* T, x. N  Z2.修复单词整体导出页面的一个bug1 @0 x7 I) o' ^) U: `8 ^
3.增加功能: 选定范围页面的批量导入词条3 x4 j- u4 O5 i( ^
4.增加功能: 快速查找定位索引+ m" ~9 u  k3 W* X, M" ^- D
----------------------------
0 d3 R* X  m1 |( [, ?20161123更新:
9 _' U. y$ @5 |& ~重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
/ Z" v$ J  O% U
  i. p$ K$ @6 y# l
  1. 问题:页面是否有词条?
    ! e9 Z! t0 S5 C) ^& W0 u% }0 g
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    / M% ]& v3 r5 @2 e+ A, v
  3. 2. YES -->
    , u9 D5 I+ ~; m$ ]9 S$ ^: l7 @
  4.  (1) 确定0号词条所在栏:. _% N2 ~6 e+ v; t& _- i. E$ ~
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)6 S  E6 v. j) t, ~
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)& l, _; A3 ]4 e
  7.  (2) 次数为所有词条数目的循环:
    % a" g2 [5 W( U6 f0 L8 k; ?
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    ! |# m1 y7 O3 V
  9.   B. 否则:
    1 l; @7 L. v% M4 ^# }/ \
  10.    a. 下一个词条在下一栏 --> 确定高度$ N5 C1 I( q) m; X* a0 R
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)% }  A6 z+ Z6 v5 u, ?' o
  12.    b. 下一个词条在同一栏 --> 确定高度
    1 w: L7 F1 }, U( ^( ~, O
  13. 1 N& }& p) w  |2 C% ?7 p
  14.   --> 导出每个词条的切图4 W, j$ @$ Y0 u! W0 a

  15. % L3 |$ {* _1 e) T: j& P; c
  16.  (3) 确定最后一个词条所在栏:& {! p1 o6 B& f4 Z3 F
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
4 [' G7 E( x8 w" i' {1 |% g9 A8 m
) k; t* m" c& z  m
重要更新:6 L# }- F5 l! l. w
1. 词条整体切图模块重写5 q7 P+ p& m# e" f7 }
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】1 s3 N- j1 O4 o- T% {' U
2 V0 S$ H/ k$ W8 d/ w
) m3 a( W& R/ ~3 C8 N

/ u; ^3 r5 M2 ]2016.11.28
/ U/ K( H. j( p3 M3 C" Y更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)% P( G. ?2 ~. b7 ^5 ^: Z1 n$ K& G2 q8 ~

9 b& l5 T( V, y8 u# c9 x

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑
    ; ^8 H; H7 ^/ c2 j- p/ k/ D, @  T  }0 i% K* \
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    ' h, }9 |. R) l' a1 n; J0 y5 }7 ?嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    7 O' L0 U6 K8 B' L" N6 @6 ^PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 4 G  T- Z! h6 w6 x8 A

    7 p- `* d+ f! H  q  M1 n可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:308 s% ?  W; G* Z" o4 Q
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    ! m- N1 K% t6 R( {. W) \$ J是的,这个软件确实极大提高效率,
    9 Q  X8 d! s3 a现在个人需要做的事情仅仅为:4 T# k* H- z, w" I: y
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    3 ]" F& I! x+ M4 m+ a2. 使用本软件进行:- _: j1 V0 v; y
     (1) 全部页面的 自动划线-->自动OCR* I  q" W# N' u1 e3 V/ T' E1 s
     (2) 逐页校对划线和文本(可删可增)
      K5 U! R% W! @! b0 Y, F (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    8 P( E: e6 u: ?* e. o    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    0 ^% Z" h! F3 g4 z, r! v' k

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 - v7 Z) R% {/ h" e) a

    + C# o- a# B( \% |3 W; N比如《现代汉语词典》也可以画线和OCR、切图等:: I; d5 L' y8 [: g# \, p
    ----------------------------------------------------
    $ u; r  @) Z" S) ^  q, E; q画线时:' l* [; K/ s0 M
    [行间距离]: 17
    + f; `. @' U9 u  h# J4 H; ^[向右倍率]: 1/1.05 T/ x( K1 S. @6 v5 I

    3 q2 f' z" v5 c" eOCR时:
    & R  D5 P" D$ U/ C) O; S+ N[行间距离]: 10* z. l( N3 O, Z
    [向右倍率]: 1/3.0) O# r, k1 P2 ]7 a6 Y
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    ) |1 z/ O5 g; I
    $ K8 ^* C) Z* M/ G( Y3 `, P' j$ ]- Z

    $ V, L% A; S1 }( `2 I: A  j, Z

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    + y) v: H2 s1 @% d6 G" y比如《现代汉语词典》也可以画线和OCR、切图等:
    * x& X; V) d7 r! t----------------------------------------------------
    ' D6 \" n4 Y. q# y ...
    ' u% y% o! i) x6 y
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:095 q, ]1 T9 ^+ q$ }! ~  l6 \( @
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    9 T( i) g+ X9 O, m% o! K所有图片统一修图 还有轻微歪斜能够画线/ V; v8 o3 k/ t# x0 P
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    + y$ R1 d. P, X. u9 Q$ }不规则形状不考虑
    / }4 J3 A3 k6 f. R支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    6 z! r6 U# M4 P4 u  X
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版  m4 A( Y8 T( O. t5 {! |
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    1 S8 u$ _, b1 Q" l(出处: 掌上百科)) z& `" `, ^4 W5 {( {5 \$ N

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    - M: }+ ]) p) d5 O" L因为切出的图片数目极多,目前想法是:( k# o% ^, k$ B& K1 H6 C$ _# ?3 {% ?
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    % O  \- _% W7 u* o/ a(2) 制作成DSL格式, 图片资源直接打包zip4 x7 b% Z8 a6 [+ L! b

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    2 @$ v& z3 V% \終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ) `6 u% A0 ]+ A0 v
    所有位置的切图都是分离的,后期导出时同时导出对应信息0 @  J' D$ j( }" s) y2 l
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    " _6 m6 O$ S4 X# r; x; r0 s終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    , P3 a4 _  s) N: R) J7 A: y9 _1 d你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    5 A. \7 N- A: t" K
    chigre3 发表于 2017-2-1 02:048 z2 @6 @7 M; x7 P
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    1 ?, L7 W8 I, h8 ^

    3 V3 K  I- ^+ {  I5 N" P如何才能固定' [# Q" e: O, \  F) n2 E4 v% R
    5 K- f  v+ \* H2 r0 s* _1 X
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 19:14 , Processed in 0.057236 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表