掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17653|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑 ; f  O& m: B6 z$ U" Q" b; ]

2 n/ d7 ~8 I6 `& z一、致谢:( l6 a% C4 ?" n% ^7 X  ?0 k
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
2 m4 `: r& o. g5 l' A0 |  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
( }0 k% E% _; g: t------------------------------------------------------------------------; q$ b- z- C0 ]" m0 ~, Z) n( P
二、这个软件有什么用呢???" X8 d8 {# B; j, d9 n3 D5 C: J
  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:
! f8 u5 q/ v! y$ f+ A# @- ~5 {  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
3 K) G/ M& C3 X2 H% G$ W# H) z  2. 使用本软件进行:
! G, m. x! ?( @+ z" ]   (1) 全部页面的 自动划线-->自动OCR
7 H, ?, j1 h. r% i& u8 v   (2) 逐页校对划线和文本(可删可增)1 `- M( O; ]0 }2 V5 P/ i: U" ?) \
   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
2 A. Z/ k9 m7 B. Y6 S      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典# v9 E5 Q) Y# |7 x  v: S* l) X6 x
------------------------------------------------------------------------. ]6 L, i6 A1 Z5 L
三、实现的功能:
4 T  G; v! z0 {( q; Q! o  1. 画线:
+ a+ p6 _4 y( f( F9 M* p% I   (1) 自动分析页面 + 自动画线' a+ d, U% A+ J$ @% D6 @9 C
   (2) 手动模式定义页面 + 自动划线
+ c5 {4 ]1 C& w9 k6 f* [   (3) 鼠标右键单击修改单栏重新自动画线0 ?- X1 C; x, Z% X' p
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线' y. G* u. d+ E% [0 Y$ J
7 @6 C- A! k/ Z0 r0 ~: S, W! G3 ^  W
  2. OCR:- E7 [6 K1 d# t9 U* x( v
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata+ G+ L. |2 g9 T/ [
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足+ b. z  v6 J9 o! x
   (2) 导入文本
0 i+ N$ U( N% k" X0 F: S& N& e   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
0 v" a- s/ O- x3 I( P- _) r   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景1 o# Z  ~3 T, [% H4 N" |4 V1 j

4 t! ?0 V$ I, A' K- y  3. 切图:% S, @. z# x* j5 Y9 _
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途0 n" N$ z" Q  a: Y; K6 a$ D
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
9 R* ]/ ]6 e# J6 G1 j7 N7 Q6 D    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html
7 G1 N2 C* f$ B3 U8 f+ B8 {* j+ m7 Q    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=1744810 J( |% d: s2 o' m4 ^2 b
    8 v0 X7 z4 Y. S$ _0 b  `, N! L
   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行" m/ E! X( a2 k6 q3 O) p/ s
    
, o* F2 z. U0 h' F. F$ a  @$ {; R: S8 J5 s! Y* [; w
  4. 校对:
1 p- L) V. x7 l* M& \   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
5 T# {, b2 b) K. k2 F  t: }
! g# a- i5 r2 R) K# {1 ~$ `  5. 其他:# d" M, z' V! S6 \2 E! `5 e
   (1) 配置文件保存、导入9 S# D, T9 r4 l9 B- p
   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务
# t9 z) P, P9 z   (3) 最重要的还是要人工校对!!!!
* F( w+ i! e/ m2 `   (4) 高度自定义参数设置
. f8 a* Z& e6 g+ S: \------------------------------------------------------------------------
$ e1 E& |8 q4 T1 Q  w如题,放个图:% ^8 \# @! [) }( b6 M( a* C
/ B' P1 O( r3 r9 G6 H
' v! j( a# Z" [/ V, D) Q: t
/ g+ x8 f/ `# P9 V* G! m7 m

1 n& a2 t8 o2 Z) l& c; `" c8 D截图内的词条文字为OCR结果+ y- s' ^4 M( C4 v3 @
: b$ P$ e/ l4 n6 g( K3 e

7 q- F' \# a# s: j+ c' S/ L5 Q3 Y8 \+ b- E0 N) B
----------------------------20181130更新:
$ D! D! d1 o- b7 X* U5 `校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!# M% ~/ ~% ]+ |$ n+ l# I, k
----------------------------- S  V* Q2 p8 e+ L1 e
20180809更新:
- F( Y. b) p' ^# Y插图画区域由之前的矩形升级为任意多边形1 f7 x( J! r1 V( v3 S2 k

) m. ]& d, M1 n  y$ b/ Z) I+ e
; l  q' U/ @* F2 q. [----------------------------9 H# B3 L# P1 p7 t9 I
20180614更新:
5 r3 `7 P) C  r$ v在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
- s- b1 ?' x! r6 z& }' d8 e: O8 g单击则替换当前校对文本框中的文本!
9 C9 g5 z# l" I+ M9 H. w" K  o不同颜色提示,方便定位!
% \2 B# X# Y9 L0 Q# ~& i0 L4 }. W9 W1 D9 H0 b1 P+ e6 [% ?

4 ?/ l! G& F9 l) o  {% U5 G" G. K; ?$ M$ {! [+ k
----------------------------
( }7 G9 k6 _* L- n% Y7 C20170314更新2:
. j8 C1 Z! M- B校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:7 |: B- l$ [; T# ~9 _

& |( o$ p' x: Q
0 x6 a/ y9 T" c20170314更新:
* K2 a, O% t0 C9 ?. C起始页-->终止页# U( _% O  p0 h2 R; p
[切图]-【词条整体切图】
! x8 v1 w5 l! R, N) J---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
2 ^  t- N6 c' c/ u9 A如果起始页和终止页为空,则导出当前页的词条切图
: b( E. k+ H( ~) J
# ^- H4 x4 y! G8 ^9 i在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)6 w. C2 y3 I. x
当前词条亮黄色,其他还是红色
1 T( ]& J) F. U这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。0 {: U; p- G* w

0 W; K( A) `  b8 |% D4 U6 }1 b7 f----------------------------
- m/ Y2 I& D% z3 D" ~- R% k20170313更新:
  @) s- y" {# H: c1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)6 g! x8 t3 b+ [9 w: y; F4 w+ s# C
  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
6 c& C7 C  V; P8 o5 K0 O----------------------------
) P  e% K2 N# B) V/ v8 _20170217更新:& b' K7 a+ h: q+ f
1. 画线判断的方法改进(2种方法均改进)
2 r$ D( w3 d5 S1 {& s----------------------------
( J7 j! f6 Y% I2 P) B& F20170115更新:, e6 J3 w5 P& @- q, s
1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载
) ], T8 f% G6 u$ Y' y& h# G2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)! p/ S$ W7 a! S$ \! Z0 |0 s8 P
----------------------------
1 W8 r" w2 q* s0 K4 I  K- J20161119更新:
& X2 U/ ^, P0 K8 K1.修复保存坐标数据时的bug8 x+ U" r) e& {; u: f. J! e2 h
2.修复单词整体导出页面的一个bug
% ]1 |( T5 `9 X2 H* v3.增加功能: 选定范围页面的批量导入词条
; {7 W' _, M6 f2 M- k4.增加功能: 快速查找定位索引
% p: O+ ^" k3 Q5 Y6 D, k----------------------------; i; b1 i5 Q( I' B
20161123更新:! _) r6 U* D: ?& H
重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。8 B7 e4 P( K/ e0 K# a) @

! _% ?7 [) I# T& @: ^
  1. 问题:页面是否有词条?, J$ B9 j9 J$ e6 ?, M
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)
    0 Q4 L/ q/ P0 e; K! _
  3. 2. YES --> + r# P1 [! M- S
  4.  (1) 确定0号词条所在栏:, E$ T* w, G# {6 c5 L& K0 {; s* U+ Q
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续). d' p$ R1 X6 F% y
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续): s' u* \8 A9 Z6 ]. S7 s' Y1 f3 w
  7.  (2) 次数为所有词条数目的循环:
    4 u5 i' Y. \+ Y: i( O* J& \
  8.   A. 若: 当前为最后一个词条 --> 确定高度/ ]4 q$ q' k- ~4 r
  9.   B. 否则:
    9 V3 `7 A  V$ g5 ^( M2 d. O
  10.    a. 下一个词条在下一栏 --> 确定高度, @7 p, t+ ~, }2 O# y& w* y
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2)
    / q! `1 G# U7 ?) E
  12.    b. 下一个词条在同一栏 --> 确定高度
    * O& G5 w0 s+ K5 N) w( u
  13. 1 g- ^) {' p" A/ W  N2 ?( L
  14.   --> 导出每个词条的切图
    1 X5 m4 P% o) d. j# t) S

  15. ) i8 B! ~9 Q/ {# m1 M5 w- i9 L1 n
  16.  (3) 确定最后一个词条所在栏:- A- n; j) U  o3 {; M* `
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
2 Q8 G  V  O0 r4 h6 o
1 S. L- |2 V. ?1 P9 V
重要更新:3 j0 Z% m, V4 I0 Q- o5 h/ W; d
1. 词条整体切图模块重写
* _8 b1 q% @' Q2 v7 B+ m, z2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
: u+ b8 L! A  u% D4 r5 T- D( k4 V  a
% r/ ]6 Y* @: h' w$ ~( E, Z' e/ |
7 R1 X2 R* ?+ u: o' [+ C9 o' y+ d' ~$ Q2 |6 T! D3 H. w
2016.11.28
/ V$ I' L3 B* E% O8 Q! [更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
( [7 W" E/ `5 P( s9 i8 c) F- d0 Z% j

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 9 R) |' R) k; f" j& i) t/ x7 x( ?1 c
    6 n+ m+ I1 W5 _$ A" i/ s
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:39
      j. E; d; x& l& S. v* N! c/ P% A: p嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...
    & Y* B2 X8 u9 c1 u/ N
    PS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 ) A0 V+ I6 w# x# a

    ) K/ q% I' ?3 T2 r. k- S3 I4 K4 I# c可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:308 L: w  O: ~9 f7 h
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    2 h% E9 {' i& }) Q  k
    是的,这个软件确实极大提高效率,
    ; Y& y% c1 H$ D/ y& {! ~现在个人需要做的事情仅仅为:* p& S$ k4 n2 Y' Q  s
    1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    ( B4 c2 }7 Q2 z/ R# e0 L* g8 ]2. 使用本软件进行:
    9 H; E* h* \6 v) q: s7 C (1) 全部页面的 自动划线-->自动OCR
    6 Y. j. Y( h4 b (2) 逐页校对划线和文本(可删可增); B3 y7 {& K! |+ _
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典( N: j+ j- p) C. C7 I2 Z' g
        B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典/ b6 G+ G) [" v# W% P) j# g  l0 e

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    " z$ Q- d- L& J7 z0 F6 {+ Z- L* i4 `' f8 F. M( u
    比如《现代汉语词典》也可以画线和OCR、切图等:
    6 N' P2 R5 b6 G----------------------------------------------------
    " r8 s, d* V* B- i画线时:
    # ?- U$ s/ M. _% w6 Y) Q3 p) [# z[行间距离]: 17
    # F' ?- w4 g, a: n% D[向右倍率]: 1/1.0  l( u9 b1 T6 \! q% n: T
    * ~1 i# p, t/ i/ Y+ l1 F
    OCR时:' b1 H7 u4 }# ~6 w! o9 Q% F
    [行间距离]: 10# q4 l$ X# L: _* L6 X3 N6 N
    [向右倍率]: 1/3.0. t. |. O- @, x: z
    文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查- `0 T; \, p* z1 a0 T0 i& f: }
    . K. a* ]4 l: b- ?

    9 f; w4 o+ e( W' |4 s2 O3 y! ?) w
    5 a8 r! a* N$ U; L$ o" h7 ~

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11
    * f$ x- b# S, U# h比如《现代汉语词典》也可以画线和OCR、切图等:& O4 g0 \4 w% n  a$ @# W
    ----------------------------------------------------
    + B) o; x+ B6 ] ...
    - ?1 e6 U0 f8 s1 [2 a3 K( s' d
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:09
    # V/ v, g3 R. P8 W; Y8 M/ [歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    ( C$ a. i) q! W+ @0 e
    所有图片统一修图 还有轻微歪斜能够画线
    . P2 L! _$ D- L& X0 g图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数
    , C( w3 K7 E! ^- }2 u( b不规则形状不考虑 ( q, @( |' `9 ^. r* s8 N
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~: b# S$ u4 s; R3 R# A) M; Z$ r, q
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版& t' ?$ l+ Z  ]: M: S
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    0 q3 Z& t0 X/ m9 N% Y(出处: 掌上百科)
    ( x7 t4 }0 {4 |; b

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:% ^! J, M- R1 K# d- Y# l4 `; l
    因为切出的图片数目极多,目前想法是:1 i5 L# _2 ?2 b2 b# `2 S
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    " B, ?1 r/ [: S: v1 g(2) 制作成DSL格式, 图片资源直接打包zip
    " F% z! u3 G! ~$ D$ \, m# Z

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58% O) e% o, l8 z) k! r" Y2 d
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    5 ^, J6 p1 T5 l: W) N( i, H
    所有位置的切图都是分离的,后期导出时同时导出对应信息% w/ V% z* E# {5 [" d8 I0 r' V
    也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:588 u0 K5 e6 s  n* l  ^  g5 {
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    $ H. B7 q- w, V) @7 Q, G你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 8 m7 m- X3 Z8 W# o/ _  \
    chigre3 发表于 2017-2-1 02:04
    5 W4 J* n7 t! N4 g你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    - l: z. E2 d, I! K6 J% t9 @  W/ v0 M" {' v4 ]
    如何才能固定
    4 l& W$ C0 M# u* h; J' c$ p4 m8 z9 z
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-10 00:53 , Processed in 0.065023 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表