掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1053|回复: 4

[求助] PDF词典的OCR是怎么进行的呢?

[复制链接]
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2019-9-3 18:15:42 | 显示全部楼层 |阅读模式
    本帖最后由 Charlieqiu 于 2019-9-4 00:50 编辑 : O1 f6 {1 M0 m) Q8 [

    ; M) {' @. w4 k6 N% g& d; O' J我对这个技术问题感兴趣,有没有可行性高的ocr步骤将PDF词典转换成文字版?1. 比如现在我只能想到用Finereader14先识别,但识别后是先导出再校对,还是在Finereader内校对后再导出?! D" w/ x* W3 B& j1 ~
    2. 用Finereader14识别后导出的格式应该是什么?因为要保存标签,所以用html格式,但这标签太乱,根本不能用啊; ^2 g, N" t+ q$ E
    3. 以及其他具体的ocr及校对的步骤
    ; u! ~! p9 c% O/ [  S; ~我现在是在慢慢学习技术中,就将制作词典当实例练习,慢慢熟练起来
    ' \, V5 A/ A6 `. Q0 w
    1 O. X. V4 p& L" h  x4 ]' E4 j

    本帖被以下淘专辑推荐:

    该用户从未签到

    发表于 2019-9-3 21:03:25 | 显示全部楼层
    我是先导出再校对
    : b' p8 U5 w* G  o' z! o3 M1 d8 t* k. o8 `3 ^9 I  L4 c
    建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就行了
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-4 00:48:24 | 显示全部楼层
    klwo2 发表于 2019-9-3 21:03
    ( r5 d  B4 |5 Z: }我是先导出再校对
    ( x/ y  m7 V5 P, [+ i
    + l( L; I; }- f建议你先说说,想怎么做「PDF词典」,是做图片版嘛?做图片版的话,OCR原书自带的索引就 ...

    0 V2 ?1 W& j7 k6 t& a. S不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大
  • TA的每日心情
    开心
    2018-5-26 18:12
  • 签到天数: 11 天

    [LV.3]偶尔看看II

     楼主| 发表于 2019-9-4 03:38:08 | 显示全部楼层
    现在这样ocr转换成文本太麻烦,看来没有比较方便的方法,目前如果没有好的文本数据源,图片词典还是唯一选择,可惜图片格式没有能像PDF一样能搜索文字,不然更加方便一些

    该用户从未签到

    发表于 2019-9-4 08:01:14 | 显示全部楼层
    Charlieqiu 发表于 2019-9-4 00:489 ~3 F. B2 _; X" P
    不是哦,是要ocr成文字版的mdx,想要看看转换的障碍最小有多大

    9 ?& r  q: i; L' ?ocr成文字版的mdx不是不可以,不过有限制:
    9 M( x0 `' V2 f6 Y7 C' a% H
    ! B1 e: i1 T8 @& g9 E% ^( _) m1. 最好不是专门的汉语词典,不然生僻字很头疼4 m8 Q8 v: P: M' ?0 |
    2. 最好只有英语字母,没有特殊符号,不然校对很头疼
    ( G1 w( p2 `* [7 K3. 图片越清晰越好
    . s' ]9 y1 m4 r  d2 }$ j" g# J7 Y: }: Y/ D; x$ Z1 V  g0 I1 w' S
    这么看下来,就没有太多词典了
    , `4 w, M' ?  Q2 d
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-6 18:41 , Processed in 0.040774 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表