掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 17671|回复: 73

[工具] 20181130更新_自动画线+OCR+切图+校对 软件

  [复制链接]

该用户从未签到

发表于 2016-11-15 20:14:56 | 显示全部楼层 |阅读模式
本帖最后由 chigre3 于 2018-11-30 08:14 编辑
6 i0 @2 A# I0 `! g& P! D
8 h. t( \7 @+ d, }) t# b一、致谢:6 K2 l3 J8 o3 i6 g
  感谢 @vbnet 的自动画线测试版, 现在经过个人修改, 几乎完全删除了原先的内容, 软件名称仍为 Picture Capture
# }" _4 s) O+ z5 i; A; {  感谢 @孤影 的自动划线软件, 给了很多界面上的参考
. s9 P" m8 v. _  @------------------------------------------------------------------------
" s# d$ X6 ~* v: l二、这个软件有什么用呢???
6 |. p4 {( M: A. d- y1 g1 n  极大地提高制作图片版词典的效率,现在个人需要做的事情仅仅为:- r$ p* @) G8 K9 H
  1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
4 U/ K1 ~0 x) Z; R2 ^5 s8 P0 L2 o( R  2. 使用本软件进行:- k0 w$ ]4 c& [* P6 L
   (1) 全部页面的 自动划线-->自动OCR* z4 s: R( }9 n
   (2) 逐页校对划线和文本(可删可增)
. B7 R) |6 d0 Q; d; T# k8 {   (3) A.合并 .pdic (词条 + 坐标信息) --> Excel 模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
) @' S8 y( }  ~  L0 g" g      B.导出单词整体切图 --> 合并 .PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
8 M. ]4 v" G9 E4 W$ ^------------------------------------------------------------------------
( Y0 O! u$ c4 D: }3 i" B三、实现的功能:
# z  V+ }3 s8 M7 \7 a' k  1. 画线:* S# n' I/ A$ I  P  ?  {3 q
   (1) 自动分析页面 + 自动画线
6 n7 O" ~3 Z0 p$ W" n   (2) 手动模式定义页面 + 自动划线
$ _" E* q) s9 R% M   (3) 鼠标右键单击修改单栏重新自动画线% i( l  m$ v6 {7 `3 e9 I
   以上均 + 鼠标左键单击增加画线, 文本框内快捷键`删除划线
/ z$ H/ v5 l+ q6 }4 ^
9 M' `  X, O6 a( U. n& C/ d0 x; X& T  2. OCR:" m* S. D5 B1 ^+ k4 e
   采用Tesseract OCR, 具体语言文件 tessdata 可以到官网下载:https://github.com/tesseract-ocr/tessdata; k- z, f' M/ n: h. N: p2 A
   (1) 导出文本:可外部编辑后导入, 避免OCR单个切图的不足
3 s6 R. \0 O$ I8 Y5 y   (2) 导入文本  O2 c) [! Q7 N9 Q9 \% G
   (3) 1 + 2:直接将OCR结果导入当前页面的文本框 --> 校对
& `, [3 V! n! `1 B! V% f, Z/ i& @& W   外置批量替换表达式文本, 可自行创建和编辑, 适应各个词典不同OCR处理的场景0 x2 J; \6 q2 g" `& y
3 m# T; \3 S* B! J
  3. 切图:/ z0 x1 ^7 a3 K* F  ^% {; i  l
   (1) 词条单行切图:也可以使用外部其他OCR软件处理,或者其他用途, Q: E# @0 i, C0 b1 m
   (2) 词条整体切图:实现切图版图片词典的制作(背景透明,不过目前需要其他PNG优化软件缩减大小:https://www.pdawiki.com/forum/thread-19157-1-1.html
6 \+ v; @6 i6 h4 o    (实例1:[英-汉] 20161113《英汉大词典(第2版)》10页单词 切图版  https://www.pdawiki.com/forum/thread-19015-1-1.html' {) m) H/ i1 q% o8 y& g& B3 q& N
    (实例2:新西汉词典 切图版 https://www.pdawiki.com/forum/fo ... 6545&fromuid=174481
5 k! N6 i# W) n' Z    
  W2 E2 m1 m1 t% {& |   可实现仅导出切图坐标等信息,不导出切图,方便使用外部软件进行+ H. z+ o0 {+ [8 h& S/ q$ {
    
! `9 j  ?- ^/ `) s
( J; M- k& ~4 n) L5 l. |5 K. z  4. 校对:
5 P) V# ^6 C, A! S1 i$ Q) X3 b   列表式样, 与主窗口同步更新文本框内容, 也高亮匹配提示
2 H' G8 c; t6 P6 r, D  T( d3 d, i! h6 X1 L- k2 A8 T/ U  u9 H( |
  5. 其他:, [2 r% N, I  H& F8 X/ Z4 h' b' X" `
   (1) 配置文件保存、导入
. e" m) s  H1 H, w  @, t6 r; U   (2) 自动下一页+操作(定时):自动保存、自动画线、自动OCR、自动切图。方便无人值守完成相应任务" I: K% M2 p: Y5 t0 U" Z( E' T/ K
   (3) 最重要的还是要人工校对!!!!( x. W# f: Y7 B. p' F& T! l
   (4) 高度自定义参数设置5 i; [* Z+ N4 M3 A1 M) n
------------------------------------------------------------------------# E! v/ Y6 D, B; V
如题,放个图:+ s; R. C; V% ?0 l
9 u$ K  y5 J% B2 e9 S: i& F" _* j( l

% X, P+ q3 @. ]" S) h- U5 G2 C' A6 J
5 W3 J( ~9 u* \1 t$ @
截图内的词条文字为OCR结果
7 {# D- g* Q' b  p. i$ Y# L
; M' Z: O2 c9 _8 V, X. D" ]& l
) M) g. t9 @8 A/ @
7 M, @3 U- K- Z3 ?+ {8 g----------------------------20181130更新:& r9 b* h# U  H" m6 g) C
校对窗口增加按当前提示索引(全部或部分)填充当前划线的文本框!1 N8 ]/ y5 s: @! N  I, D
----------------------------
5 w0 @7 Q; V$ w4 ^% o3 v8 f20180809更新:
/ h) j/ \5 i  f+ k- y插图画区域由之前的矩形升级为任意多边形1 W& {7 E) O7 G: A: ]5 Q
2 ~8 P/ E- P1 a9 |

* {0 n# U6 F" E----------------------------
, j5 s' r) `) Y1 u20180614更新:
6 O/ ?; W! _! j- o在校对界面中增加一列单词,即大词库表中 上页末单词和本页末单词 之间的所有单词。
: @$ O( n9 v2 o1 n6 V单击则替换当前校对文本框中的文本!3 h& n2 K  m! w9 V2 F9 K' {; l
不同颜色提示,方便定位!
* P& d, Q" g, U4 w3 M+ _9 M% p( O. `
* g4 D1 K4 V" f5 s9 x
( `7 f2 S* p6 E& C" u+ N; Q# F
/ A, {# V  a  o. e% z; S----------------------------- j6 u5 S6 P' n$ g$ o
20170314更新2:
: T4 B8 B- C! K  Y$ S2 |% u校对界面修改如下,增添更多特殊字符(aeiou等),方便校对的时候直接复制粘贴:$ i' h. M1 u4 T( m

, G: v0 Q* U3 x2 i$ H
3 s$ v9 \; Z+ ^% R  i$ c20170314更新:
* @; x9 G* _# |5 G% r* D$ O6 C起始页-->终止页
2 B% ~8 O" U0 c( O/ a[切图]-【词条整体切图】5 E, z" r0 X3 B* q, Z5 w
---> 会直接把范围内的页面的所有单词切图导出(软件界面会有假死的状态,不用理会,导出结束就OK了)
3 a4 w, c+ L& j: Y如果起始页和终止页为空,则导出当前页的词条切图" `3 E, @- B9 I

, h6 C) W" I( ]) D& B在校对界面时,主界面【√隐藏线框】,那么此时就只有颜色框(平行线宽)
, ?9 Z" y8 d: B3 A5 y, D: ~当前词条亮黄色,其他还是红色) s9 A3 M/ H+ k1 ?6 M
这儿主要是考虑到有时候词条不只是单行,多行的时候可以方便查看。
7 c5 E% T8 Y9 m' L+ r  `
7 S7 C3 ]9 d5 v( A: H* I$ D/ Z----------------------------. q. v4 s& Q  i6 t
20170313更新:
1 j+ @' ^7 l6 I" U1. 词条整体导出切图的判断逻辑的补充(3栏以上时,位于不同列的上下单词中间隔了空列。之前这个情况未考虑到)
1 B+ c' T: |) T  【仅修改了:从PDIC整体导出切图的坐标数据的这部分补充内容】
  T; m. y* Y  n4 K' S# o5 w----------------------------, Q+ o! c4 q0 m5 [# p. k( L5 i, L
20170217更新:8 E  p3 @& x1 V* F1 u- {; F$ Q
1. 画线判断的方法改进(2种方法均改进)% [' v- k5 {, k2 {5 U
----------------------------
2 Q: p6 s1 ]0 D. }20170115更新:
( `/ Z; R$ a# }! }- f8 C$ b3 z( i1. tessdata 的完整语言列表,具体语言移步【https://github.com/tesseract-ocr/tessdata】下载3 Y- Z5 Y2 F# ?6 Q. C4 K
2. 在图片文件名列表上方的文本框里输入“SMALL”,点击【校对】,每个词条行的缩略图切图(非原始图片上裁剪)# r) d  t3 Q/ p) R2 }
----------------------------! n/ `! ^7 m- K$ I7 L. d
20161119更新:4 B8 z' N% ^8 `
1.修复保存坐标数据时的bug
, M! j; {' D: q2.修复单词整体导出页面的一个bug
! b3 t+ N; P) Y  R. m, W# L3.增加功能: 选定范围页面的批量导入词条- q9 B8 h( Q" `' ^, R  t- C1 e' m
4.增加功能: 快速查找定位索引
$ e4 x9 T3 O3 c% u% s----------------------------
# y2 D% k9 c$ ^2 ?$ T& W/ R20161123更新:
3 \$ e% m- M# _) |8 f+ E  \9 ]0 M5 o重写词条整体导出切图的判断逻辑,现在应该不会有切图坐标不一致、切图数目不一致的情况了。
  k$ R5 _9 ?9 K6 T1 r2 G
- i. z) I% ?, k) }3 {
  1. 问题:页面是否有词条?
    3 |# p  l7 D4 o# Z
  2. 1. NO --> 直接导出和栏数一致的大切图 (标记为上页末词条续)5 \7 l4 j8 k- M6 E8 [( Q# l
  3. 2. YES --> - Q) L+ h7 E$ P0 S7 @
  4.  (1) 确定0号词条所在栏:% y4 j, x* Y2 s6 }; S0 D
  5.   --> 0号词条所在栏之前的栏, 直接导出大切图 (标记为上页末词条续)
    6 U8 R/ X- E; E$ q' O8 M
  6.   --> 0号词条所在栏上方若还有部分上页末词条接续, 则导出切图 (标记为上页末词条续)+ b1 m8 J3 u! z" U
  7.  (2) 次数为所有词条数目的循环:
    * W! o/ R: r' h8 `6 ^
  8.   A. 若: 当前为最后一个词条 --> 确定高度
    0 D# }3 p. N, o
  9.   B. 否则:0 G, C2 r8 }6 n$ o* d$ x' |
  10.    a. 下一个词条在下一栏 --> 确定高度
    0 V4 r$ q* Q1 {& _& ?
  11.      --> 如果当前词条在下一栏仍有接续 --> 导出切图 (标记为当前词条接续2): ~: M2 i8 y' z
  12.    b. 下一个词条在同一栏 --> 确定高度: r) V& }- A; x+ K/ L4 [7 j
  13. 3 `. L2 K9 G7 u" m% L- J6 H1 M
  14.   --> 导出每个词条的切图4 J) R6 I2 F$ C8 J1 T0 _3 U$ K5 d
  15. : [( N/ G8 a0 t" |7 y
  16.  (3) 确定最后一个词条所在栏:
    9 Q. D7 E3 W& I& ^9 @7 i
  17.   --> 最后词条所在栏之后的栏, 直接导出大切图 (标记为本页末词条续)
复制代码
0 N$ _( t$ X* V2 m: S

( ~, O* r* A* c2 N* b" i. Q重要更新:5 k! L/ |: B6 u) J0 o
1. 词条整体切图模块重写
4 m8 I2 ^# v8 [: L7 R* {2. 增加根据.pdic导出所有图片切图信息(+切图)--> 几十秒【如下面动图GIF】
6 r3 V3 s6 x( Q) o. N4 ?8 Y# x; u1 @/ V% c0 f  |; I$ g" v
' f6 h' {' Y8 z" |) |

; _- v9 V$ k; y+ X. |2016.11.28
, M. O% b8 Z) Y! i& d6 p  F更新:一个小小的bug(跳过页首处下方如果单行接续,会因为判断的距离和行高过于接近造成缺漏 --> 修改了公式)
* I/ V4 G9 L% o/ A
% ?6 [5 }$ e. _0 i: d$ j+ z

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2022-1-12 06:11
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-2-23 08:45:34 | 显示全部楼层
    请问大神,软件在哪儿有下载啊

    该用户从未签到

    发表于 2017-2-1 12:03:46 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:47 编辑 1 |% ]+ _9 z9 u
    + q& w- Z) X6 w
    我在第一頁設置了參數和保存了, 第二頁的紅色豎線就移位了, 是不是參數有問題?

    该用户从未签到

     楼主| 发表于 2017-2-1 04:49:02 | 显示全部楼层
    teresaiao 发表于 2017-2-1 03:398 f- g9 ^/ q; u
    嗯,字典裏看得到了,真的快很多,基本上是要用photoshop和打詞條就好。 另外那個自動畫線,我在第一幅弄 ...

    5 K8 K5 J- T  Y8 qPS 模板 移动位置 让每一张图片位置都一样 这样在软件里你设置了的参数就会是全局通用的 之后便可以全自动全部页面划线 紧接着就可以OCR

    该用户从未签到

    发表于 2017-2-1 01:58:45 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 ; X# b' {2 q4 X- M
    % y0 n. S7 L/ r) V2 d8 o( M
    可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?

    该用户从未签到

    发表于 2016-11-26 13:05:03 | 显示全部楼层
    感谢chigre3,待我有空可以把汉语大字典图片版做一下了。

    该用户从未签到

     楼主| 发表于 2016-11-17 00:34:06 | 显示全部楼层
    group1234 发表于 2016-11-16 23:30. {2 p: T# w. a9 Q! d6 H
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    5 B$ J7 z6 F$ i% }5 s: h1 ^* Q. M
    是的,这个软件确实极大提高效率,4 _% V4 F  r' f' e  p0 A+ |1 o3 C
    现在个人需要做的事情仅仅为:
    ( i! X7 s4 L1 o' n1. 前期的图片处理:Abbyy Finereader(整体校直)、Photoshop(模板调位置, 统一)、ComicEnhancerPro(转换格式、大小) 等
    0 s% M1 g( `: Z( @* ^# p, b  V2. 使用本软件进行:9 s' \# O7 t5 K8 F
     (1) 全部页面的 自动划线-->自动OCR
    6 ?. h2 Z0 S1 R! L( P0 @ (2) 逐页校对划线和文本(可删可增), d  \, r- y# m1 d6 Q  s
     (3) A.合并.pdic (词条+坐标信息) --> Excel模板 --> 文本替换 --> 精确高亮定位 整页版 图片词典
    3 \; n0 K1 f3 j    B.导出单词整体切图 --> 合并.PWWords (词条+图片名称) --> 文本替代 --> 切图版 图片词典
    % K8 Y/ E# `( {: }" x) o5 q0 Q$ g/ O

    该用户从未签到

    发表于 2016-11-15 22:50:35 | 显示全部楼层
    逆天还是吊炸天了。。。。。

    该用户从未签到

     楼主| 发表于 2016-11-16 02:11:49 | 显示全部楼层
    本帖最后由 chigre3 于 2016-11-16 02:22 编辑
    $ o5 A' P2 F9 V* H) e( Y
    " {* Z' c. Z9 I4 k. Z( F2 T& S1 J比如《现代汉语词典》也可以画线和OCR、切图等:
    7 Z( d( c) ^4 r2 B5 R% ]----------------------------------------------------3 Z4 w0 \+ Y* `4 ?& j4 h. n
    画线时:# N' _2 V" z% U& E  p
    [行间距离]: 17
    9 d( b& N& k+ o3 Z$ X. }[向右倍率]: 1/1.04 A; T* F$ B7 E1 {9 ~, K4 J& [
    , V7 \# y3 K- l1 r7 s. C+ b
    OCR时:1 b* j7 S  t2 K- Q
    [行间距离]: 10
    . H) m. |. \. m7 J7 }$ ], L[向右倍率]: 1/3.0
    1 Y! d! V8 E$ q+ U文本框匹配都是红色,因为没有加载中文的词条索引来进行匹配检查
    & y6 [2 r, N# M& c: S: U9 c
    " C: t8 x6 K$ I( u1 _2 `* ~& S$ M) S$ B/ i6 b, n

    8 D/ S7 p* o( `+ i. d( K& y

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-16 07:12:22 | 显示全部楼层
    几乎只剩下人工校对工作了

    该用户从未签到

    发表于 2016-11-16 08:09:02 | 显示全部楼层
    chigre3 发表于 2016-11-16 02:11  U3 |. f, X* Q6 V0 [
    比如《现代汉语词典》也可以画线和OCR、切图等:
    6 Z" c* X" ^! r" }# y! S8 v. U----------------------------------------------------
    & Q1 ^+ a& W1 x* t ...

    0 s+ q1 \5 N1 d! _. v( i! Z歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?

    该用户从未签到

    发表于 2016-11-16 08:46:56 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-16 17:36:45 | 显示全部楼层
    644830104 发表于 2016-11-16 08:098 d% I/ w, a6 j9 X- Y
    歪图问题,上下页不对齐,某些不是矩形栏的排版,3栏以及3栏以上,不知道能不能处理?
    9 u; p9 r3 t9 Q( ]/ i, |$ ]! k' g
    所有图片统一修图 还有轻微歪斜能够画线# Q% M" w4 H5 ^
    图片不处理到一致规格 那最多用来划线切图OCR 每一页还要设置参数 6 K2 i) ?, [* j' N3 j7 v% k7 r5 N* Y* Z
    不规则形状不考虑 0 N& W8 |2 h, Q# w$ E
    支持N栏
  • TA的每日心情
    开心
    2019-6-28 11:53
  • 签到天数: 28 天

    [LV.4]偶尔看看III

    发表于 2016-11-16 23:30:48 | 显示全部楼层
    製作圖片辭典的福音,可以節省非常多的時間,期待軟件分享~~~
    , b; I6 n, r0 D+ j
  • TA的每日心情
    慵懒
    2023-2-4 11:26
  • 签到天数: 579 天

    [LV.9]以坛为家II

    发表于 2016-11-17 17:28:54 | 显示全部楼层
    这个绝对是神器
  • TA的每日心情
    开心
    2018-5-8 11:51
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2016-11-20 01:16:53 | 显示全部楼层
    激动不已!跃跃欲试

    该用户从未签到

    发表于 2016-11-20 09:18:39 来自手机 | 显示全部楼层
    哇,很牛的软件,期待chigre3的分享。
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:12:18 | 显示全部楼层
    这个软件太厉害了
  • TA的每日心情
    开心
    2020-12-9 19:29
  • 签到天数: 27 天

    [LV.4]偶尔看看III

    发表于 2016-11-22 17:13:11 | 显示全部楼层
    提示: 该帖被管理员或版主屏蔽

    该用户从未签到

     楼主| 发表于 2016-11-26 09:05:40 | 显示全部楼层
    【20161125更新】《葡汉词典》切图版2 t2 m8 N& r8 n0 H0 h0 H' G. x
    https://www.pdawiki.com/forum/fo ... &fromuid=174481
    " ?# f$ n6 ]% U8 i  L) K5 \6 Q2 V(出处: 掌上百科)
    2 [5 z$ _9 G" Y

    该用户从未签到

    发表于 2016-11-27 08:21:42 | 显示全部楼层
    C大神器,谁与争锋?创意无限,匠心十足。佩服佩服。

    该用户从未签到

     楼主| 发表于 2016-11-27 20:23:37 | 显示全部楼层
    切图版后续:
    6 H* @, z# H5 z0 R' ^' Q# J: ~因为切出的图片数目极多,目前想法是:9 B% f1 E- m/ D/ }
    (1) 制作成MDX/MDD格式, CSS不内嵌入MDD, 外置CSS, 方便个人设置
    ' |; {0 T1 ^% T# ^! j5 O2 m(2) 制作成DSL格式, 图片资源直接打包zip
    - A2 O- }- h0 V; N

    该用户从未签到

     楼主| 发表于 2017-2-1 02:01:35 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58' U6 x0 p! I: S) Y) D( G0 K! ~
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    - Q5 z, k3 _( Y2 p; @
    所有位置的切图都是分离的,后期导出时同时导出对应信息
    ' d+ j) S( ^1 W1 W9 m3 w也就是:词条+页码+切图图片名(1~多个)

    该用户从未签到

     楼主| 发表于 2017-2-1 02:04:52 | 显示全部楼层
    teresaiao 发表于 2017-2-1 01:58; ~1 C1 n" P; z) L4 C: \" |$ H; f
    終於都會做了, 可是我想問用你那個軟件, 如果轉頁, 或解釋在第二欄, 要怎麼合併?
    & ^0 [# ~# Y# G  u( }/ Z
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl 文本的 你打开就可看到词条结构

    该用户从未签到

    发表于 2017-2-1 03:39:23 | 显示全部楼层
    本帖最后由 teresaiao 于 2017-2-10 13:46 编辑 1 l$ v# W# R' ]% A. v* V
    chigre3 发表于 2017-2-1 02:042 s4 J& z  p$ O$ G
    你下载了那个红葡汉词典 查一些释义特别长的单词 就可以了解到啦 DSL.dz 可以使用解压缩软件还原为.dsl  ...

    ' Q1 {2 I2 ?, z. i9 g! u+ Z' g# j- A7 m7 t! k9 f' `
    如何才能固定
    6 g9 w* x' A$ P+ C  X5 m, I# t4 w1 G( S5 H
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-12 11:53 , Processed in 0.091463 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表