掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17644|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 1 c$ j2 {6 }' c5 n/ u9 r

  Y8 q' c$ I0 A/ t, g+ k一、致谢:( g" S5 W0 S$ j( L( a0 Z" r1 X2 c
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
* Z2 ?, ]& [; j  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
  \5 N" U  T. C. Z! S) |------------------------------------------------------------------------- \( {* {& B; @. N
二、这个软件有什么用呢???
0 D' ]. @# s# P; [  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:0 a8 ]5 h/ P3 S6 y
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等  B% p; N& F9 y, m( D, @0 i. O: G
  2. 使用本软件进行:( o+ Q+ w9 I+ Q+ v
   (1) 全部页面的 自动划线-->自动OCR
9 @, h% ~$ `& A3 J7 O2 V" {   (2) 逐页校对划线和文本(可删可增)8 N1 ]  o+ Y1 L6 t3 I, |, Y" d
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
' `  d9 l+ V* z      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
- w3 `: d9 Y1 N------------------------------------------------------------------------" z. k, e, x% u0 `: H" j
三、实现的功能:
* y8 A3 r/ }' P% o6 h, C  1. 画线:5 `3 d; o8 b* E& u* c
   (1) 自动分析页面 + 自动画线
! z( j- w4 p0 W, e) s, k: C   (2) 手动模式定义页面 + 自动划线5 g& X4 t, K2 A; i( u! x+ m! {: f
   (3) 鼠标右键单击修改单栏重新自动画线
2 M* a) h/ N$ X4 q6 D  ?) c   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线: m' }- W5 {' O6 P

* f# b  i  ^; M7 S$ g3 {3 R  }  2. OCR:
4 K) }" M* U, C   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata
( A( l9 ]0 L8 e2 p8 i, \! S   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
7 t, G0 ?  ?7 c# b9 I3 V   (2) 导入文本
4 f& c& x0 x* ]' S   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
8 s; m+ f$ ^- P: X, N( W! |   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景
- K3 V' o6 {$ ]" X" D5 h$ |; e/ ^: a9 B, T) c; ]/ n
  3. 切图:1 i% E: T7 `3 o$ Q6 p7 i
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途
# H  @' m4 q# G  w( _9 N   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
: j1 F4 f6 V9 S; E7 M0 K7 s0 L/ O    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html  i- a: n, x+ n; Z2 P
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481& _1 U1 J) m/ {+ C& k
    
' [  m3 T, M( K; b4 ?# i( b, V   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行
$ \4 |8 K! K1 k    
, F. f% h3 r7 p$ D. T. O" r9 ?
: O/ V5 c& h$ g. P+ \+ e# b8 D  4. 校对:! k+ E# w7 E8 L% l
   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
* D0 ?' q; i3 Q  t  O, G3 n1 m; }$ l  H. e# m& {
  5. 其他:& X* i+ F0 i0 c: X, f  j
   (1) 配置文件保存、导入
  Z! I' h+ D; J# L9 h   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
( G! W. M. c1 t   (3) 最重要的还是要人工校对!!!!
' _; a! I6 }7 y4 }   (4) 高度自定义参数设置% L3 f* S* K+ Y( @9 l4 d
------------------------------------------------------------------------) a% J' W9 _( M
如题,放个图:/ F5 J, l! G, T* y# f
* T! r( `/ G& s9 r8 h
2 C/ k& W' U6 S+ V3 x
, `4 [8 `3 X- u3 r- i
. C( Q) `/ L5 H9 {3 N7 E
截图内的词条文字为OCR结果
/ F& V+ L5 {9 c; ]/ z( x  J) R5 ~, ]8 `4 I, L' C; \9 K

$ B8 `5 A: M0 m8 n1 m2 ~
4 Y" @4 W( _" ]8 l$ x----------------------------20181130更新:5 t8 w- |$ P8 q% U
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!
" O) x) T) j3 B& P2 a( \: }6 }----------------------------* @' h) ~6 C7 A2 I) p  O
20180809更新:
0 d! U9 q4 c% y% ], L" f插图画区域由之前的矩形升级为任意多边形
( P0 T" Z1 Q! J" B& I5 K; I- \3 U# B; J  u" X! Z6 @- F% J

& E! D3 i9 M- y----------------------------' B; g' Y, e2 r0 k, u) q
20180614更新:3 g0 J& e9 P: k$ F0 |
在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
6 @6 L) e2 Q9 R4 Y% d* D单击则替换当前校对文本框中的文本!" \% g8 C1 G5 R2 @
不同颜色提示,方便定位!6 q% E3 \, {* _6 s3 j) F# C! c

1 P  ?* _- a' |6 g
% p' q, d6 ]) J1 r  A- X2 @! R" N$ q, O* `6 A! Z" e
----------------------------
: v; a5 p0 [. G$ l20170314更新2:
  o9 q* j" V1 e, q校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:
6 a$ X" {9 |0 g; B+ _* `8 m( D4 \) j: }( \$ ?7 h

: `4 R* |$ r7 @0 t9 B3 s20170314更新:
# t( \- m8 J/ `$ m% N起始页-->终止页) P- n  m) n: r4 K+ T1 j9 G
[切图]-【词条整体切图】$ |" }2 g7 K6 J8 s9 Y- S
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)* v7 j* t: R# |! H) d
如果起始页和终止页为空,则导出当前页的词条切图- l6 Z# u, Z2 c$ C9 s$ L' Z: R

, N2 ]  ^0 e; d0 l7 f2 v在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)  D$ i+ \9 X0 b$ v( C
当前词条亮黄色,其他还是红色' a' w& E6 e% M! s3 P2 P
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。+ F2 E) S$ ]  r8 y$ P' D2 a
5 a0 w1 C" [7 b( O' B4 a
----------------------------
9 ?  z7 e& A: k9 Q5 W  m- W20170313更新:
$ }$ L0 M& \. I; q/ B  K& j8 V1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
8 w& I: N. n6 ?" i  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】6 g4 Z6 |! }- N9 Q  m4 E$ b3 b
----------------------------
0 t. @/ N- P* E* m0 T7 R20170217更新:/ O/ o$ D$ G2 d0 F
1. 画线判断的方法改进(2种方法均改进): W" m8 E+ p3 V
----------------------------- t+ S: q  E1 R
20170115更新:# }) _7 i0 d/ X! i+ u* G0 q6 `
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
7 g. l) }; a, b) [4 W2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)7 e8 G% o% ?2 h/ ~. E* O
----------------------------, u  {/ O7 D9 _, a( ?) t7 |
20161119更新:8 D( w  f6 J3 d
1.修复保存坐标数据时的bug/ G1 N' f' x1 h. ~
2.修复单词整体导出页面的一个bug
" b3 _* d8 S8 r& ~' C6 N; f3 ?% ]3.增加功能: 选定范围页面的批量导入词条) X5 O5 A5 L8 O
4.增加功能: 快速查找定位索引
; p  d, Q0 E: v: G9 s----------------------------1 Q" F, c/ j  ]* X, `  `
20161123更新:/ ^$ ~; R$ y* D
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。3 O* b  I; ^  D# s3 E  r
2 |& x- V, V8 z& G
  1. 问题:页面是否有词条?
    - w8 K5 n4 ]7 g2 a
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    ( z3 G. c4 `" S. _$ X6 r: B3 N5 [. f
  3. 2. YES -->
    : |3 Y, K' j0 Z: A( a: f( g0 A
  4.  (1) 确定0号词条所在栏:
    6 c9 D( T) }4 @( K
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)$ e- N, \( l- [. b, e" K4 z, M
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)
    ( A; t, u& ]0 W) k6 [- C9 `8 ^
  7.  (2) 次数为所有词条数目的循环:! ^- [' l5 a% A8 _
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    ! X8 K3 Q0 l5 C% c6 k
  9.   B. 否则:7 ~$ g0 H5 T7 K) ?0 u
  10.    a. 下一个词条在下一栏 --> 确定高度
      h4 m* |3 [* M+ t
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)$ Y, f5 K  N! S, h  g5 R
  12.    b. 下一个词条在同一栏 --> 确定高度
    4 m, K- U: g+ n1 b! I3 k) M

  13. 8 ~0 `9 E* m" D1 c# P. x
  14.   --> 导出每个词条的切图! d- b$ n+ s. ?& C% ^; E
  15. # u  o# j5 D4 M0 w
  16.  (3) 确定最后一个词条所在栏:
    : h7 n: W( r3 e/ y* Y1 ]& B( J& r) K+ Z
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码

/ ^" O6 T  S3 Z( P, h
1 i9 N# q$ L; r; C2 `" E重要更新:# @$ U) M+ [) i* ?( [; c7 x1 Q% F
1. 词条整体切图模块重写
* A9 P- K; K0 M$ _7 E; K& T$ Q) n+ H2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】( i# Z" y5 d3 z" w' F

, z7 y3 e' f8 e; o6 f8 Z% w% K9 s! n! l
0 {9 G0 E  i: E7 \
2016.11.28
) S( F- Q( B7 e; ?% q+ A更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)& G& S! {; q! p$ E
( p7 F/ w2 @0 e7 n" b. ?7 s% [

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 2 S: \$ N8 h3 o# j
    - Y; I5 G; k2 }  g: F( Y
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:398 R- {5 X& B0 [5 C6 s# O! L
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    ; e5 t: e* g( v4 x  Y
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 + K4 P3 v+ b& f3 g2 j) O/ W( B! E6 r) L

    / z' m3 @1 ^3 u5 N- {: k4 w可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30
    1 f4 U7 p0 t- o" m. Q( n4 x% }製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~

    3 Y' Z$ A& d2 o8 p是的,这个软件确实极大提高效率,: f  @3 q% a6 Z& I
    现在个人需要做的事情仅仅为:" c- s& x: e, u& f* A6 b
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    # h# ^2 h3 p* \- r: `2. 使用本软件进行:
    4 X3 C( z4 h* b) o) n0 y( r (1) 全部页面的 自动划线-->自动OCR
    : c$ F+ q$ Y# `8 S) K5 c, C& \ (2) 逐页校对划线和文本(可删可增)2 L' T6 q+ A5 a% e+ z- o
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    3 T6 p/ w' y$ h' @9 B    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典% H$ _" u0 I- [% b

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    . i7 `4 }" j/ G7 D* w1 T' n0 c9 ]! Z7 d# M3 ?
    比如《现代汉语词典》也可以画线和OCR、切图等:
    ( N' H. Q: Y6 n. R* `' r----------------------------------------------------3 n9 g9 ?$ Z9 \' E
    画线时:6 i  C0 G2 i- D5 X1 U
    [行间距离]: 17
    . Z9 V) v2 b: L% s8 t9 M[向右倍率]: 1/1.0
    ! h' i4 n5 K( W( d, F$ A; [7 `% F# x! |; {: G0 n  O. {
    OCR时:
    # @6 I% p( F% N$ N[行间距离]: 10% s. j2 F! E, }# @# ~: U/ d1 K
    [向右倍率]: 1/3.08 b; }& Y: G% g$ r0 Y% v* }$ `
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
      O( F7 f6 p; h1 n, |8 c  v; S3 w8 _$ i3 F0 @

    . I  _$ S1 O  r* Q- @  d* E% W, L, o! h( Q- l7 j+ _

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    ; [- ~7 u' L/ M4 k2 M5 P比如《现代汉语词典》也可以画线和OCR、切图等:
    & t( m/ J1 h# ?; d1 ^/ e4 q5 R& M----------------------------------------------------( ?0 p, O' j* }5 [: }
    ...

    / y3 q. n2 {' E歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    $ X8 O$ T- p. [9 R" e" B歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    , S( x, v6 E. q5 B$ R所有图片统一修图 还有轻微歪斜能够画线! a, S9 e! `9 Q6 K" ]) O; O
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    $ {7 [% e( T6 Q8 z不规则形状不考虑
    % s% f8 g5 y1 S: O+ K1 M" ~4 |' I支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    2 K4 |0 _7 ?! q6 l; ]- G% r
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版" Z* f2 N0 m1 y& d: \- B
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    6 m; [, _7 O- {" Q, O(出处: 掌上百科)5 q, j; r! m) R# ^6 x2 {

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:& h- G/ |* y/ V
    因为切出的图片数目极多,目前想法是:
    ( g6 g+ `% Z( d7 l) y(1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    6 ?4 e* {% [2 R5 }0 L: Y2 q(2) 制作成DSL格式, 图片资源直接打包zip
    8 O5 q# q8 s- U8 d# j. v

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58! y! t: u8 D" y; r5 L) {
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    ! g) E9 b' i# Z+ T9 d# o; N" u所有位置的切图都是分离的,后期导出时同时导出对应信息
    3 b2 Y" C$ b9 g5 ]( O) B2 ]也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58
    $ f& u- I5 J$ R0 Q終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    8 \  V' F8 z4 [- n9 F9 G你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 ! p1 _' G* C! M
    chigre3 发表于 2017-2-1 02:048 l0 T' \7 |+ n2 d) V% _4 Z
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...
    : m: P- s- w& M( @# u/ R) {

    4 b: n  F' y$ r8 [. `7 X如何才能固定1 |; p4 G6 u3 e/ \9 [) b: @

    6 F0 e+ Q; Q" j. B5 M$ L/ h/ k
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 18:49 , Processed in 0.068679 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表