掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17879|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
& c1 g& g: [/ L+ }  I
5 H2 B; I" M) ~8 K; u一、致谢:
' I8 m/ n6 e2 |# `8 Z  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture% F/ T3 i2 w+ T4 L4 U5 O
  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
4 t# t* D, [9 M  E+ u------------------------------------------------------------------------$ Y2 J$ l9 [! ]  R
二、这个软件有什么用呢???7 o/ d, i2 x" b. _4 i/ S
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
! K% e8 F3 ?  {1 Q' ~/ w  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
% B# i6 ]/ l# {1 R  2. 使用本软件进行:
9 \% X2 N3 Q5 m   (1) 全部页面的 自动划线-->自动OCR
, j! x: u* Q, M1 R" N# o   (2) 逐页校对划线和文本(可删可增)  `. i% |& J$ R" V
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
$ E) t+ s8 @8 O4 ~5 R      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
' D# ]" U: z3 L4 g  U7 Q6 a+ x( d' w------------------------------------------------------------------------
' Y5 D# R) R6 M9 n9 B三、实现的功能:
7 `" k+ c/ \* {4 H; x4 c" V( h  1. 画线:. Z/ e9 l  X  S9 N! `% L: Y
   (1) 自动分析页面 + 自动画线. `/ X' c  P+ v1 `  N
   (2) 手动模式定义页面 + 自动划线" C9 r9 F. J& P" G7 F4 W- ]3 x
   (3) 鼠标右键单击修改单栏重新自动画线9 ?5 F( P& o" b. Z, c, A) ?' X
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线8 `* c  k/ D9 {  p8 W

; {( V- p3 T0 d: G  2. OCR:
$ J, f6 }! x4 {: U- M: t) n4 E   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata  _: s4 Q5 K" s: W3 q% f) {9 B
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
: x3 L1 E% ~, ?: ]  ]   (2) 导入文本$ u! f/ e) r5 m9 s( c& \0 E# o
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
4 ]6 X, w/ g2 E   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景' I6 Y, t3 B& B: V, F7 [
; M6 ?. }  j- i# p7 [9 F* ]- v. t5 [
  3. 切图:' V8 X+ ^$ C6 Z
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
1 L. Q" O1 n$ A0 e- f% F1 t- ?- d   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
: @0 ~; [  Q. C  j# b- n; a+ D    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
/ t1 c" q1 g* Q) Y5 R    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481" J& Z; f" h0 L  u2 }/ }
    8 ^( \6 s5 Y5 }- O1 v$ i4 W
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
- [7 X. b) s6 Y9 p    
! B9 l  x# p- l: Z3 E
) [, f5 H( X1 i6 [+ r5 o$ m& o  4. 校对:% l+ I& q' t0 W( Z- T4 w' @: _
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示$ |1 I( ?$ Y$ N$ c' v3 x
% Q2 b& z3 B* H5 b
  5. 其他:
$ N6 `6 s, L9 L. H3 G   (1) 配置文件保存、导入
) d2 k8 p8 t9 E  r  g   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
6 o3 `" _$ s, I7 K2 D4 @- N6 W  s* @   (3) 最重要的还是要人工校对!!!!, }) p2 X% X$ w) b
   (4) 高度自定义参数设置
( a! t/ G- w7 Z------------------------------------------------------------------------. e/ ?1 T  T5 F' {7 s5 `/ |
如题,放个图:
/ ?: y( S# F* T+ a9 r% M! _4 o4 f: b
5 h! X7 B( r( [, f% l: F, ]
* o9 m5 _) l' R% n  J, L) ]

4 n" O. S8 ?- j2 d/ z6 [, S: l/ q/ n截图内的词条文字为OCR结果
  Z3 D# ^; k$ j% |$ Y5 [% H
/ g1 x3 @5 f4 @/ B
( I7 c; E) T: c$ y- Y1 r! U' H. U- S6 L% R9 P2 c
----------------------------20181130更新:
% x0 v- M' V  [  [校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!9 c9 l. x( t7 J& C, t$ ?
----------------------------& B4 _! m# l* X) T- H# C, `/ H
20180809更新:* z$ |; E- m9 U& S; q: `0 \
插图画区域由之前的矩形升级为任意多边形
. g: Q: l' K* Z* J. u# |. \" \6 {. B* @
( N5 O# M$ w% ?
----------------------------$ B! Z4 A# k/ i4 M$ C4 ?9 f
20180614更新:
3 J! M3 Y  p& H4 U# u( V! ~  ]在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。$ j: A2 T* I9 Z. m8 q
单击则替换当前校对文本框中的文本!6 x* U$ Y  y" Q% }) C! t$ W2 s& H/ |
不同颜色提示,方便定位!
5 |/ @8 A7 N, c: U' g6 j) u' i( _/ T1 `) N7 |8 `% N

2 Y5 ^( C" H1 e: ]) m0 f) l3 _4 ~4 z( o, U0 ^2 X; P- \
----------------------------" }; W: {& L, w( m. Z
20170314更新2:
& H& S6 m6 a- f. ~1 z+ x0 V* z校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
5 q. I8 Y6 B# D' L: b" U* S1 D
- u, X( S, @1 ^( f# x: Z/ i/ a# ]$ L  i- g
20170314更新:& O) ~( _$ w- [
起始页-->终止页' ^) s8 P/ h* D1 M- E" \
[切图]-【词条整体切图】
% o: t& P7 ^  E---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)$ q( q0 x5 c0 O; |+ T7 U+ x( G( L" \
如果起始页和终止页为空,则导出当前页的词条切图! C4 D& v) v1 ^3 i! t# C
8 ~9 E7 n* K; L3 q- E
在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
% z$ s6 R- r- D* n2 \0 U' F当前词条亮黄色,其他还是红色
" n9 H# t8 G# c" S6 B8 n3 {这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。" d4 U/ H6 E) u; c( n0 f; P

  t# |0 H( C( _% [# ^" m----------------------------) M! t% d+ s' Y
20170313更新:8 F7 Q* j7 k! W+ _. L% v- r
1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到). v3 Z. n8 w) b  y$ [: l1 f0 V
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】: ]; N: n+ f: u4 s4 ?/ X! b3 P
----------------------------
/ _* @; b6 h9 W: k: K9 W' C' J; {. F20170217更新:% \: K! s! B1 c8 X# \6 \, o
1. 画线判断的方法改进(2种方法均改进): ]% j5 f* s; s. Z- C1 U
----------------------------
) i1 B0 r5 b4 R5 }/ `6 P20170115更新:
) U9 T; v4 Q/ N7 D1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
7 M2 h9 {# G' Y1 h$ ]! U) h1 t/ N2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)
0 X$ |; `7 m9 y# J0 O----------------------------
3 L' J, @( c% N2 ]: Y20161119更新:
& b0 W( K( J* h1.修复保存坐标数据时的bug
# k3 f9 y9 g# x) @! n3 T$ H6 d$ @2.修复单词整体导出页面的一个bug
3 G+ n/ Q! M9 c5 `3.增加功能: 选定范围页面的批量导入词条
5 p- e/ Z5 |# Z/ |$ R9 I4 q4.增加功能: 快速查找定位索引
/ I3 |" z9 G* c/ ]9 z----------------------------
- Z7 |! P. W. k$ H2 J2 ~0 k* @20161123更新:
9 w6 h1 _: n, o, m6 P% P重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。1 S( k/ |" [' {5 A8 }' m
3 k9 e/ ^* n6 |7 p, g) f
  1. 问题:页面是否有词条?4 x; [. B  Y1 w! S
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    1 S1 E6 n9 ?1 z7 R
  3. 2. YES -->
    ( P% b, U( B" u7 Q  P! y7 ~
  4.  (1) 确定0号词条所在栏:9 i9 N6 Y) P8 O2 x+ Q- r) ~$ H
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)- M( N+ I7 R5 J# j( g' |! A
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    - S5 d1 s5 E/ k7 a" i4 y- g# C
  7.  (2) 次数为所有词条数目的循环:$ N; L$ _1 s0 ~/ w. @" Y- Q
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    5 ^- v3 T$ u# a5 m% I* x2 A. q
  9.   B. 否则:7 _* q6 G# q4 ]: Y2 _- n
  10.    a. 下一个词条在下一栏 --> 确定高度# X; W% ?# Z* r; W/ b4 ~8 d% o  D& l
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)+ n" Q* @+ [6 U' s* K. N3 p  S# y
  12.    b. 下一个词条在同一栏 --> 确定高度
    , H& `' g) t0 a  k
  13. 4 ]$ s: g; G" F- H7 o7 ~6 _
  14.   --> 导出每个词条的切图$ ^2 d$ k/ P$ K
  15. 9 k1 A- Z, p% n/ ?  A
  16.  (3) 确定最后一个词条所在栏:
    : x6 K! I' c6 X8 K7 g
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

! q+ x6 A  Y- ^% B: e; B& h* K: N( U! Y, v- y: v" M% Y
重要更新:
: W/ P  Q. m3 P1. 词条整体切图模块重写
/ }" ]# ]$ E( _" v2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
7 c6 j- v3 u9 I. {3 p, F8 E2 \. P
. h6 ]1 H/ [% o% M! _+ [

% i; s  P7 x. h: T2016.11.28
8 `. |- p  U+ j8 m" u$ `更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
2 |$ C; `' {/ k2 f& W( i
$ H; K/ W5 q& M0 T

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 ! L0 H* Y1 ~8 v4 g0 `
    5 s+ {, q5 P1 W2 }: c' U, B  R
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
    - ?6 u  m& Y7 `. Y' ~) F嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    1 f) n- @% I" h9 M$ r& ^9 W- _
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑
    7 N8 ~8 Q2 u- u8 M3 v" o5 }0 c) x1 w0 k+ J
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    * `6 q* b5 v/ }( S( b製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    3 ?. y1 V3 o: Q
    是的,这个软件确实极大提高效率,& c$ O* C' i9 ?" j; j
    现在个人需要做的事情仅仅为:
    ' G& u6 e& N. O  `, R( H1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等1 m) K5 X8 D8 u
    2. 使用本软件进行:
      z8 W$ }- x9 E8 Z" W% }# H (1) 全部页面的 自动划线-->自动OCR8 c: ~4 V* l; O# [% ~' s, O
     (2) 逐页校对划线和文本(可删可增)
    8 o+ |: Q: s" N7 o( p; ~( L6 r1 L/ l (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典8 P( N) d- [, d2 u4 T8 d
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    5 e4 e( f- ^" C8 }) ^) ?

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑 $ e# _7 s- m- c5 C- [
      ^: ~  _' K7 A; P, j+ f
    比如《现代汉语词典》也可以画线和OCR、切图等:
    0 k# e7 H1 x0 M2 _- ?4 y----------------------------------------------------
    + D; c3 b# _$ M3 O; l& S0 R$ P! s画线时:
    6 d9 N5 ^( y$ N- q[行间距离]: 17
    8 L! g: I. J9 k% O[向右倍率]: 1/1.03 V) }" C: ~" ?9 y5 W
    - q* L& _( o& \1 y3 y! `- P
    OCR时:
    : n3 N: N% ?, e- }[行间距离]: 10
    $ j! r3 J0 v  p# [$ s3 b( E[向右倍率]: 1/3.0
    % L5 Z. B7 ?/ v# V/ Q文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    5 e9 Q0 z9 d3 A9 `3 k8 `
    ; ~2 T9 g$ z) H; \2 e' n( R: c0 b! G; w, O3 n. ?: Z1 {; v
    3 v3 x3 h( O5 z5 U' }7 ~3 M% ?

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:116 ^- i& t# A9 ~
    比如《现代汉语词典》也可以画线和OCR、切图等:/ U5 l4 `- y% w
    ----------------------------------------------------
    1 Y4 F& v$ m+ o. X* U ...

    8 e" u/ Z+ k+ Y- J. Q1 }' I' {歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09  b3 \6 y+ A* B: V, }( N
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    % B* ?8 }, C0 Z所有图片统一修图 还有轻微歪斜能够画线7 q, _/ ~; ~1 {4 k  j# f" p9 y" J
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 ) h6 \0 _* _9 y( q6 e7 Y/ R
    不规则形状不考虑
    7 ^& u( g" U0 V5 N5 ]3 m  `1 w支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    - ~9 p8 D; n* o" C' T6 n: R
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版
    $ G& x% L5 M7 s" Fhttps://www.pdawiki.com/forum/fo ... &fromuid=174481. v1 D0 r3 C% J& \" v& u! h
    (出处: 掌上百科)
    6 Z4 n) T; @, X% f$ B% j, N

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:9 |' }; ]8 n2 W
    因为切出的图片数目极多,目前想法是:
    - b8 X0 }3 {6 S$ b2 f( Z$ S(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    " L- f* M$ H$ z% K7 X(2) 制作成DSL格式, 图片资源直接打包zip& A  w7 F4 q$ p+ ]3 w. l7 u  P

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    2 v+ C! h, t; m終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    $ Q& b- ~- V# t  `所有位置的切图都是分离的,后期导出时同时导出对应信息+ h. T: V9 E. R: N9 X
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    + _- n- I9 B% R" X終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    ( }9 W$ v: q; Z8 S: o$ {你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 3 K7 k1 Q1 b! e! ?+ m
    chigre3 发表于 2017-2-1 02:04: a: `- ]* `# s
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    $ A2 b8 T% |  m0 E: _: C# o! W# [& G8 p: f( T1 h
    如何才能固定
    3 K3 C6 e4 R: X, s8 j4 y6 P' e5 Y" S- E2 t8 D" V2 g, s
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-5 22:25 , Processed in 0.068202 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表