掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 18173|回复: 77

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 / M4 C  \0 {9 T  ?, P

3 A0 {( I! x" U9 g) a2 Y一、致谢:
1 s9 |! {0 m4 r0 M- a" D  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture( R) U9 B( j. K( p- b
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考! ~" L& K' f0 _0 B" E6 q7 s
------------------------------------------------------------------------/ P- ^+ _9 a$ M  I
二、这个软件有什么用呢???) I; y4 [( A- I2 Z
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:- z! e- p5 J! ?1 y' E
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
1 X* F; h) j/ v2 @  s4 ?8 ~; S  2. 使用本软件进行:
9 }* a8 X( `* H* d% l& T  ?% j   (1) 全部页面的 自动划线-->自动OCR+ K  e+ l; A3 t1 P
   (2) 逐页校对划线和文本(可删可增)
. i2 Z. b1 z9 N% ]. i. r: h   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
7 f( C7 D, @8 d' i      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
+ x, C1 D8 a) Z0 u8 n9 c6 Y------------------------------------------------------------------------9 f' g' ]8 T2 P
三、实现的功能:
& R3 W! H4 n, Z4 L$ l4 Y  1. 画线:
- D) z7 H, v  E8 r- G   (1) 自动分析页面 + 自动画线& A$ b$ S+ t6 @3 ?5 y; n
   (2) 手动模式定义页面 + 自动划线
6 q1 f; i3 \! N. j+ {   (3) 鼠标右键单击修改单栏重新自动画线& L: ?" Y+ r2 Y$ u( W4 y0 W* F
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线8 f; A3 q+ |9 r+ P5 S5 S5 V4 e( f1 @4 m
$ S. R, I. H3 f2 @
  2. OCR:' B" W4 r$ X! M3 G
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata: w- B0 L2 [- L0 f5 H
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
) M, v; h6 F9 y   (2) 导入文本
6 J/ v9 q4 u$ U, H   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
$ i! J2 L# l) j. k5 l% D   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景0 F$ J1 V0 B- M4 t

4 d$ z6 _* a2 u$ m  3. 切图:& k% C" I6 F$ d  u2 i$ t" x
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
; C+ P( b  j% ?9 }! x' o   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
3 R# H9 R% O( `0 n    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
8 {) e( ]7 v. A) D- W8 q    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
9 t; t$ H- N7 g& P# P    
3 g; J" ?) k( A: L0 H) |: f% O   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
3 \0 K3 }4 y5 _9 ^% w    
7 i" C& s! z; X# V+ f0 n1 |0 i4 M1 }9 m9 h* Y
  4. 校对:0 E, j& D5 f% r# _# F
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示! E- c7 X4 n$ i& q
' @2 r) _) j4 T
  5. 其他:1 o- m( X8 Y, Q& h
   (1) 配置文件保存、导入  A& f# |5 ~5 M+ E7 B* H
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
" H6 e" M5 M! f* h$ \9 K   (3) 最重要的还是要人工校对!!!!; R. ^8 f) @) D/ e
   (4) 高度自定义参数设置' q7 P( I) B) r
------------------------------------------------------------------------
, d% W' B$ ^* O  K+ A如题,放个图:* D" s+ Z0 ^; `4 {$ c6 j, @& l( R
4 y- w+ ?  I  w" p' P8 Q' I
! s. c: K2 S! x* R3 m

& `& i  M( Q! x8 c, q' t
1 D7 H- [2 k9 F+ |. I( k截图内的词条文字为OCR结果' M6 k1 [9 d7 f4 d0 Z2 o
1 J+ B( Y/ U" f# N
  |# b7 l8 @5 r( U3 W3 Y
  n6 c; V; O# U
----------------------------20181130更新:) x& S+ C- h0 h' I; u
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
0 h7 C' X+ a" M' C$ v----------------------------
! V1 A* e+ f9 m. n( g20180809更新:9 D6 E- b) E* s
插图画区域由之前的矩形升级为任意多边形' x3 R, S3 X/ r$ z+ a/ g7 f
: d( I# S* y1 V6 X( T& t

/ r) v* F; S+ K# E4 s/ q! H----------------------------5 g) b5 e4 G& A6 q) C+ }6 u3 h
20180614更新:
' l% I1 m" L% @8 ]在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
. |$ c: r# }  v5 O5 e7 }: o单击则替换当前校对文本框中的文本!; H; t# n9 O8 X$ O4 ]2 R! O
不同颜色提示,方便定位!7 V* G: D7 B# X+ Z- B
! ?8 G' O- i8 o1 W6 }
9 F0 s% m1 D) ^- t3 `

, \  M! e% R6 k1 D----------------------------( C# A4 q& y: R6 l7 Q
20170314更新2:
4 s5 e4 d7 d) u0 ]校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
1 @2 E# D( K# X1 J3 W" P
8 j% x( L" e) l) \! w# B. I) t; E* t$ {8 s' y# I. P/ J
20170314更新:
9 I+ `3 B# T, |" M; q起始页-->终止页
9 f& P( x/ h* l6 [, j, z2 [[切图]-【词条整体切图】* \  K# x$ E9 ]8 u8 R6 X9 K
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
, i3 ~* n5 ?- u3 E) e( F  @3 W如果起始页和终止页为空,则导出当前页的词条切图
' n5 V8 Q& H7 V# g, m8 Y
. C+ }2 s8 G; W在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)* H9 Z8 j1 o! P/ A: M% w' O3 c
当前词条亮黄色,其他还是红色
- Y8 k, Q2 n! N* x- t这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。2 @+ p' e" Z% j8 B1 q9 r
5 y! G' u4 Q! y9 B  |6 ~
----------------------------9 p, I3 }9 ]3 @( {# y( U& j1 y
20170313更新:% D+ F& f+ [. D1 K5 v6 f( g0 a
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)3 @/ U2 |+ e, ?, k- e
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】! `, h4 v! v! G: c! E7 d$ p
----------------------------+ Y: f6 e. Z9 l
20170217更新:
0 Y9 |$ _* i( J* |( r6 }1. 画线判断的方法改进(2种方法均改进), c! C. ^2 A% e* R! ~7 P
----------------------------' t5 H0 d3 s( U1 m$ J
20170115更新:
7 k8 ~* w8 R! U- B1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
( m+ r$ z5 X9 l3 ]2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
" c7 S2 z: Q) Z; Q6 b1 v" Q3 {. {----------------------------/ O; v7 y) N% J; x7 S8 y
20161119更新:
4 N9 Q) K4 y; t! C3 e' z% g. e0 y1.修复保存坐标数据时的bug
% Z, ?% {7 ~9 F3 A) Z. l2.修复单词整体导出页面的一个bug5 k4 m& |) S$ [. @
3.增加功能: 选定范围页面的批量导入词条9 b* k0 {2 @& p3 t
4.增加功能: 快速查找定位索引
$ z% Q) j: b5 s# A! w  ?, v& b/ Q----------------------------: x7 h  }$ a1 y# c5 F* ^9 {! `
20161123更新:/ p  c! t+ X# S' p) k; g+ n! d
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
  J7 v$ u  a6 o3 x5 @. B( Z, O
, S; |8 {: J) G6 ~8 M
  1. 问题:页面是否有词条?$ u, f! A1 c" y9 W; I
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    ; |7 t$ D) `* O- t- r- o
  3. 2. YES --> % j4 P$ B' o5 g, D* `7 J
  4.  (1) 确定0号词条所在栏:
    2 C1 A5 J' |2 L4 S% X
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续), U9 X) T4 @$ {
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    7 M1 {# f3 h8 P; n- O/ ?" u! C
  7.  (2) 次数为所有词条数目的循环:8 t7 ~& q% E3 L( ]+ J  A
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    3 z$ [, a  e! C1 ]  [7 ~! a
  9.   B. 否则:
    ( F7 j  ]7 g# A+ G* C
  10.    a. 下一个词条在下一栏 --> 确定高度
    5 \( l+ Z2 N; b1 n+ C) Q
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)7 }( A+ @# R6 R. Z& d
  12.    b. 下一个词条在同一栏 --> 确定高度9 S9 o; B4 Z6 J: d0 `
  13. $ C2 }; u9 w' x/ r/ ?" |; o
  14.   --> 导出每个词条的切图
    8 K9 w1 P: B& @- X, K
  15. $ W' L. \. I0 N5 @& ~: c# a
  16.  (3) 确定最后一个词条所在栏:
    3 s3 H3 W' |# E) [3 E: _
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

0 q/ l3 k: W& g) e) y
. G8 q. a% [, \6 m& q7 c重要更新:/ }. N) h. w! x& U; n2 t
1. 词条整体切图模块重写& b" G6 x$ v5 Y
2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
9 f6 i& R9 X+ K# T9 n9 H2 k, U& P4 s0 D. K5 a  t! k

' R1 P4 @9 k. G1 m, t! N6 L! D( ~) b& g3 ~
2016.11.28" C( Y" Y. r) U( z7 a2 B
更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)8 g, R" |2 U, h) F4 B

5 |4 W: e, I4 t0 P! q

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 5 D3 S& F/ e) [2 F2 H

    . u7 A, I1 L8 P& |& V我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39# @; l0 A& O8 |# h# F$ h4 u
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    * z# T" [/ P1 {; l2 {6 l  \
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 * g; [. m* {! `

    7 O( @1 F* F2 o9 \可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    2 ~8 R$ b6 `% H# n) q0 o3 }製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    + c6 T+ I6 \0 w7 D% V
    是的,这个软件确实极大提高效率,
    " C( q4 X% `9 Q& h2 B4 F现在个人需要做的事情仅仅为:
    2 e& H( w5 k3 R% z- A1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等+ i% L# s; M; X2 D* w2 }
    2. 使用本软件进行:. I. v$ E9 A' @' j" T+ k& ?
     (1) 全部页面的 自动划线-->自动OCR( M4 ^6 p9 w# A6 n- ]  |0 d
     (2) 逐页校对划线和文本(可删可增)
    # y: p+ s, x" `- D! }: F0 V  q (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典. F- e: w1 e* I
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    ' T) P5 ]( n% {4 m# c; ^

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    ( D( m7 A7 M1 b# G  f3 |# \/ {% h
    % i( i8 i( K$ F8 J4 U/ Z) h) h3 @比如《现代汉语词典》也可以画线和OCR、切图等:' a6 v  Y; Z. D2 j
    ----------------------------------------------------- Q' m4 u3 q/ C6 b" A% v; l
    画线时:
    ) Z8 u8 Y3 Q2 y; ][行间距离]: 17
    5 j7 j5 z8 g/ m3 L[向右倍率]: 1/1.0
    / M& }% X# G5 f0 t$ ~2 w, i
    3 C/ x$ M& R$ W" I0 M# h, a/ OOCR时:* p) E+ f  s! Q  Q6 h+ q/ S5 E
    [行间距离]: 10! T( ^0 ~; Y! U" w' ~
    [向右倍率]: 1/3.08 Q- J& `/ Q5 O1 c9 n
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查5 C; `  A1 d) w7 v1 Y0 F
      r, _( ~3 F, f% g& \! M! Y

    , E0 A1 y$ o# U1 l
    5 ]; }7 t$ h! s& ~/ _# O

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
      k9 K" i, {' s比如《现代汉语词典》也可以画线和OCR、切图等:: e* a, ^" A/ U. I/ s7 }
    ----------------------------------------------------
      R+ K. s4 ^+ f" \: m5 k ...
    / S& o* S8 D4 E7 q) N. K! o. M7 j: k0 l
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    5 i9 W6 E2 W9 Q歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    : ?# g3 m; p( m0 p* z% B6 Y, a所有图片统一修图 还有轻微歪斜能够画线
    1 j5 v& y7 |" o! E, W  ?图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数   W; F& j7 S$ T5 t
    不规则形状不考虑
    * ]; ^( f* O$ T' Q8 \% \支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~5 M- Q; O3 y$ n# `
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版5 X. s4 Z3 v9 c8 ?: s9 |1 v
    https://www.pdawiki.com/forum/fo ... &fromuid=174481+ f1 P# I' @$ ^0 E! }
    (出处: 掌上百科)
    & j; @$ n3 @0 U0 P2 @

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:" Z) l- G) ]0 R3 x7 {
    因为切出的图片数目极多,目前想法是:
    0 x! b* E6 u9 r) d; P5 s(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置1 S& C, {* w; l$ g1 ?& ?8 r
    (2) 制作成DSL格式, 图片资源直接打包zip
    ( q0 {  v, N' d7 k/ H

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    ( y: @' S" T8 d4 J+ E終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    4 P: b* F( T4 E' n, q+ y( H
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    $ F! K( K0 w) l3 Y: ~  s3 l" B也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58, J1 g9 O$ ]/ j' {8 ?+ u
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    + A0 |3 S; ^' N7 C! s# D. v' v* _, W你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    ( S& k2 h- ~5 p
    chigre3 发表于 2017-2-1 02:04, _& L: n* n$ S; x5 ~
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    - c! j  B8 D! K; f6 X9 N2 H& k: y% u3 o. k0 n! L- P! d
    如何才能固定" f1 T1 ~( ]. K! j, z0 k8 t0 x+ \

    5 p1 S) i: Q) v6 ]: \
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-7-21 01:15 , Processed in 0.053611 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表