掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 16666|回复: 72

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
7 X# U* i# V/ p. R; Y3 C
: q% d# y8 {) r( X. w9 L$ X一、致谢:6 s9 [: e. t. F5 L& o
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
! @8 K0 m$ Y$ {, j) C4 e  感谢 @孤影 的自动划线软件, 给了很多界面上的参考2 z- n' T, [9 d6 q1 q) t$ q5 j2 _
------------------------------------------------------------------------3 S6 P2 {- c* a  P1 p+ f; D2 f
二、这个软件有什么用呢???
1 G! k1 h0 T" e0 E8 K  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:7 P4 a4 n( w8 ^1 e; |: \3 j
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等- y" ~8 V! x9 g
  2. 使用本软件进行:
7 s( B, ]( w2 @& n; `; t$ ^- O7 z   (1) 全部页面的 自动划线-->自动OCR
1 C& k  X& U' S# E; c5 t   (2) 逐页校对划线和文本(可删可增)8 `* M! P* P% F
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
' Q; D& g8 Z: j+ }3 L1 s/ l' U3 x6 ^      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典7 [: ?+ ~/ q5 x- R: K
------------------------------------------------------------------------
% t, k9 n* ~/ S- F( E  r% R. l三、实现的功能:# K* F( H: p, G/ \
  1. 画线:
6 a1 J9 o" p1 U0 H# K6 N% D   (1) 自动分析页面 + 自动画线
0 E0 Y( c+ u$ s' W  {7 Q   (2) 手动模式定义页面 + 自动划线
5 H1 g% @" o% K6 M+ ~   (3) 鼠标右键单击修改单栏重新自动画线% t9 S) `6 `9 w5 y7 ]4 s
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
9 b7 v: ?9 t( K; F4 W1 g9 Q0 e
/ K: h( x% ?8 N3 r6 w4 m" C  2. OCR:( `, h! ?3 Z5 _- k0 L" S
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
8 R1 o& U. C( z- ?5 z6 a2 T   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足* J  x; o% S( q) X: H; G5 \/ H4 x
   (2) 导入文本
2 b) N: u0 e2 C. g/ m" a  w; {+ w   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
! y# v3 M' q! q$ `3 t6 S5 S, p( e   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景. G& s: G  T4 Y# i/ x) W( R# f
1 L0 B- r; H7 e0 o5 q2 s
  3. 切图:% [" t8 T( e( V" }5 j
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
( g5 ^4 t" ^8 @: ?( o% o) l   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html% b) J" Q+ F# d% n7 c
    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html: z, z3 q- E. f
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481! a0 W+ s: E6 ]7 t0 p2 b) V! q6 Q
    
4 A  j+ s. @$ X4 e+ @: P2 x5 B7 Y   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
) Q# V# _+ R2 l) Q7 n4 ^- F    5 I8 }  h) H# T( t3 e

# v6 j) W  J- l/ O  4. 校对:8 T% S: _* i6 B, I" a& I5 }% M# B
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
$ y5 i% J9 \  n. q, U1 c
0 }% q6 M& K8 x# V) u9 ]  5. 其他:$ S$ l5 T  }0 [: g$ C( J
   (1) 配置文件保存、导入! b: u6 @# p/ \- x4 g4 ]3 G
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
+ _' q* {* w" k) J' l# P3 c8 |   (3) 最重要的还是要人工校对!!!!
' |/ o  @, F# v' L0 p5 _/ F   (4) 高度自定义参数设置: B% T8 z2 z; R
------------------------------------------------------------------------
" O; Z$ V1 z, I8 b( p如题,放个图:1 V2 p/ m5 L% Y

) u4 Q8 ?% @9 Y& l3 c) E# |. p% @8 D. l) j4 P

, Q  G, N1 t5 o- c1 I; j: o
6 H$ h8 k/ v' y" u. t截图内的词条文字为OCR结果
3 p2 I$ J  M9 K4 C
8 ~/ Y. M/ E/ U& F$ x# v& v& R! C: q: t

1 L) `: S+ H7 Q2 w6 A----------------------------20181130更新:
$ ~, v% `1 o& ~# w0 f- ~# l1 h校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
: {- J" |9 A' f----------------------------
4 E: V* p9 ?# ~; q+ }2 t20180809更新:
1 I4 G+ ^* A" }. m( \插图画区域由之前的矩形升级为任意多边形
) m; q. _2 H4 ~7 U: ~1 [" H6 N% _/ V8 h4 C# |

& x1 G+ a' c4 X) D! d/ W! T----------------------------- v. v' \& ^" m" D3 W- W2 W8 k( S
20180614更新:
5 s3 t( C$ y  f/ F' _4 w0 _在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。! N+ U6 O0 I; L. a0 T, T: w
单击则替换当前校对文本框中的文本!
5 P# O5 _! k% F" r. d4 d不同颜色提示,方便定位!
# p4 \8 V9 ]9 [! |1 a* z7 f6 G- D  [2 e+ v2 O4 Q
# Q" V7 _7 p, C5 N6 q5 Y, s2 j4 N! G

( `5 `, c# z! z----------------------------0 N7 \  Q, K+ J3 k) s3 q
20170314更新2:0 P( x# J) C" S4 y$ k# A$ q
校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
! m0 t4 C! a( Q- X. ]% T
* s8 [& [7 @8 J
  M1 O% A% R6 r20170314更新:
0 Y- ], F! E" K6 M9 n9 y& O" X: z$ n4 @) _起始页-->终止页
: F) K0 Z: j/ ?$ l0 Y[切图]-【词条整体切图】0 c" ~5 E, M6 I. k0 r3 `
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
( m; x9 Y' p6 ~& F( _如果起始页和终止页为空,则导出当前页的词条切图
- `- }0 @$ D( j5 b
% E  H) J) w) ^9 q) F% @在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
. Q0 C9 S- o* z4 y* q. }当前词条亮黄色,其他还是红色
' [' N9 b; k7 N" v$ Z2 ]这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
) j! ^0 G' A4 n# \8 \# B/ y: y# ?% A0 J
----------------------------
( C5 t4 \% ?4 g7 o1 m20170313更新:
, M8 u, B; {8 L2 ^& m9 v1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
( {2 m& H) V3 Q8 R6 m  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
' G% @% r% }# @----------------------------6 j3 o% M+ @2 C, q3 o
20170217更新:4 W9 l; E4 c! f( e3 c
1. 画线判断的方法改进(2种方法均改进)( ~" c4 s. N4 ~
----------------------------0 v3 r. [: V5 a5 J, E! P; ^
20170115更新:
, t- C2 b- Q: S6 F* q1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载' Q& C/ G  m: S+ o
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
" r/ `4 ?( }0 |" H* T% R& D' n----------------------------
! G  v7 h  J. b, r! t9 l9 P) \; @20161119更新:% o! m. u6 M. E% Q" {
1.修复保存坐标数据时的bug0 t3 O: Q1 u3 |# K9 s! z0 N& x7 j
2.修复单词整体导出页面的一个bug1 ]' z$ O) f/ Q  n; f3 h5 {5 [$ i
3.增加功能: 选定范围页面的批量导入词条
% ?# f- N, Y6 W+ h# [+ o7 h4.增加功能: 快速查找定位索引. v5 g' T$ M( n0 M+ `) q
----------------------------
, ~% d4 ]8 \0 M+ Q; Q; k* x* c* z20161123更新:
# @' n" ^0 u9 W& p重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
: V1 [1 u9 O1 D0 [; s! C, Z. W% r& S% w) x
  1. 问题:页面是否有词条?' k$ c  P$ E2 k( O0 N3 x, l) w$ J. }+ H
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    & G' K* j1 ^7 z% W- p& Z! `! n* M
  3. 2. YES --> , S! w4 Y9 C3 E$ x: q$ z
  4.  (1) 确定0号词条所在栏:) {& p& f$ y/ s' v7 K
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)0 R% d$ e( v( M
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    7 w3 e5 f9 F* x) s. X
  7.  (2) 次数为所有词条数目的循环:8 l# `5 m7 u4 o9 L. J/ y
  8.   A. 若: 当前为最后一个词条 --> 确定高度5 a$ D! X  H5 `  M. Q' w. q
  9.   B. 否则:
    7 o# ]# w( v- ?8 B1 a* y& m
  10.    a. 下一个词条在下一栏 --> 确定高度
    0 q5 r* @3 V/ u
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    ! C) z/ n) C. n; d1 U' l
  12.    b. 下一个词条在同一栏 --> 确定高度/ g1 A, x! x* X  T* Z* n# u

  13. 9 A# a9 l  F4 ^+ {
  14.   --> 导出每个词条的切图2 O" b( Q5 k) ^- F, V5 O+ o" f/ O3 H
  15. 4 U6 k5 \! N6 F: J/ l
  16.  (3) 确定最后一个词条所在栏:% g$ f6 d+ Q- d
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

& x; O# R$ B: O/ b1 Z
% h. E7 x* q& m# q重要更新:; I5 E+ K' b9 ~& }2 H
1. 词条整体切图模块重写
' Z/ u' G1 }( N( r" W- |2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】: d) V+ E6 _( ]/ s" d5 s' o" f

6 R+ r" q2 C7 W: b" x  j3 O3 W, T5 f: \$ j

0 ?- X' n/ \. h4 L1 Y  G$ U3 n/ u2016.11.28
/ u1 t3 M, ^4 Y# l, Q/ b# ^  `5 f更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
# I2 T% N7 F% d" _, s; u
9 X! {6 u6 t; u/ L9 ~5 b8 ^

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 7 a# k& B" H0 [
    + [# T- ~' q3 @- q
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:396 U" Q3 a+ M8 ?" }
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
      e$ m7 e( m& |+ @
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    ) `0 r2 K+ ^8 ^" h- c& m# V) m3 a, i* _# K. w% _5 U
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    " I; X$ |5 J  t# ]製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    / n' K/ p- }1 J4 }6 m是的,这个软件确实极大提高效率,
    5 C( [$ P% Q0 M$ E现在个人需要做的事情仅仅为:
    4 \8 v6 G2 `0 ]1 |1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    . U+ ~& S8 C6 F% F" K0 f2. 使用本软件进行:! A' N. W: ?; \( m
     (1) 全部页面的 自动划线-->自动OCR& h/ h4 f. o& [/ q0 l0 f* N
     (2) 逐页校对划线和文本(可删可增)6 Q- t3 \2 P6 a8 P( ^0 S
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    : y. d; i; m$ R/ `7 m1 u6 {" u    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
      v5 @5 |& ^) Z3 b$ S

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    * Z7 ~3 v* I; j- G* F7 G
    * y# X/ `$ H: r# Z比如《现代汉语词典》也可以画线和OCR、切图等:$ y( a/ \4 {1 E  \2 B
    ----------------------------------------------------
    0 L: u: e% ^+ y0 z9 L' r. f画线时:
    % u7 l4 s7 K$ h+ U: x[行间距离]: 17, k# V" V0 G) B$ O( }8 o! \; [
    [向右倍率]: 1/1.0
      `' P* t/ I. I8 T! @$ h: ?8 [& s3 j; h+ }) F4 S
    OCR时:! \2 g) }# d4 r
    [行间距离]: 100 w& R0 u& d- A2 f( i
    [向右倍率]: 1/3.0: x- ~( Q# q8 S9 V2 O4 S0 C, d
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查% Y# N7 m8 X# t  Q# S3 X7 X+ ~2 \& c

    ' @0 }$ A# f& C$ s, a% N$ P* p7 K5 c+ u: Y: B3 n5 B9 i5 ]
    6 @4 Q2 K, L% c4 _/ x# I7 v" N2 q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11  t& [% }/ Y  P6 \
    比如《现代汉语词典》也可以画线和OCR、切图等:/ R" l5 c  `/ T. F0 O
    ----------------------------------------------------( [6 ~. J1 g3 Q( T
    ...

    " {( ]0 G+ x& H  _  @- K' t1 R歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    $ Y4 ]8 K5 b2 C  n/ n4 u歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    2 A2 q+ L8 z7 `所有图片统一修图 还有轻微歪斜能够画线! _8 t2 m6 M$ v- M
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 # G  L! P# ~5 K: G0 u5 ~* b6 D% P$ w
    不规则形状不考虑 , O1 C$ U' V, D1 ^) |& U
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    ) z% m3 F5 G7 ^9 H
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    - w6 R* Y8 o2 `+ [  I% T+ H- `https://www.pdawiki.com/forum/fo ... &fromuid=174481$ e0 O4 z3 v: G8 r
    (出处: 掌上百科)6 N. A% \. p, p8 `1 I' }

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:4 u1 ~4 _1 J% T# V" h9 W
    因为切出的图片数目极多,目前想法是:
    ' C: i& C; h1 K7 O# T* X(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ! D6 ]3 ^2 l* ?/ V* I(2) 制作成DSL格式, 图片资源直接打包zip
    % e! L* p6 {7 v7 h8 ^

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    . j; ?) F6 O, ~3 _: ^8 n終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    ! B+ K% ]. u2 y: {4 D
    所有位置的切图都是分离的,后期导出时同时导出对应信息9 c( ^! x& b: Z' t; d. o
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    & y1 R7 [' I  C: s5 n) V9 t終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    " L' I& H; c" D4 V7 J8 _
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    * X* g+ _: D4 t& \" a3 F
    chigre3 发表于 2017-2-1 02:047 T; F5 K% {# \6 v
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    / R: {0 H# v' T" @
    ! z, H. q  T4 M: k# F4 h  }如何才能固定3 r/ H  }* s- \
    % X3 D- D9 t, s- ?; c; z8 @& H
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-3 12:14 , Processed in 0.056593 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表