掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: Cdasjkldjas

[讨论] 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?

 关闭 [复制链接]

该用户从未签到

发表于 2014-5-20 15:55:57 | 显示全部楼层
怎么焚书坑儒了!{:11_317:}

该用户从未签到

发表于 2014-5-28 22:28:22 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑
8 F8 C9 R" @' D9 S
Cdasjkldjas 发表于 2014-5-15 13:43 / L- P4 Z3 |$ E
谢谢各位回复,机器已到。+ l4 f' k* }( }  |; X" g% n2 k. n, J

1 X  h8 ?2 u1 w3 e最大支持600。

1 |% X) j- q( G1 }5 q0 s& k+ Q! }9 ~$ m* q
根据#49楼主给出的扫描结果,写了一个格式化工具,下载地址如下:9 S. o6 `& ^( j3 s
链接:http://pan.baidu.com/s/1hqmTwkG 密码:l4rv
/ f5 S4 L; x3 E: T" t' z% q) n$ `0 i+ M+ \3 a9 V% d" v
# w- O$ ?$ m9 g) ~, y2 M) }! C' f
经本人实测,只需要改正少量OCR识别错误,仅须不到30分钟即可校对完成1页8 B& @! c# f& h  U2 `

( l& x5 n. R7 o$ Y
3 J9 B$ R& c7 f2 \  f' q

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2014-5-28 22:44:42 | 显示全部楼层
补充一句:OCR识别文本一定要存成UTF-8编码,否则容易出乱码
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2014-5-28 23:55:14 | 显示全部楼层
    赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着,真正使用起来的话不久就完善了,而且绝无痛苦可言。
    0 N+ i+ j# n, A/ Z0 O8 l6 D% q* A
    9 P3 L$ E0 D/ t. a9 j3 s2 @! p3 \bt4baidu是编程牛人,不知能不能编个转换多列pdf(?)成单列文本的工具,这样的话词典立即就可使用了。
    ; H. n5 o' e/ L7 ^& S3 ~6 R
    , M9 g# y1 O6 x' p% O0 V

    该用户从未签到

    发表于 2014-5-29 09:37:04 | 显示全部楼层
    spoony1971 发表于 2014-5-28 23:55
    : c+ l( ~4 `) a, ~8 c% J) `赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...
    # @7 k, \# _2 J
    不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的: P* S2 s2 s) {8 e7 x/ N! G

      n$ s4 W( c& s6 w# b+ E* n我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。
    ) S* y; {* a1 m9 t# s/ [+ Q0 n( }$ v) \. p6 X/ ]8 X2 `
    保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工% i7 X3 }7 F% x9 U" M3 }- W+ u
    7 X- N% z. {9 D
    由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)
  • TA的每日心情

    2018-2-6 10:27
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-5-29 21:19:29 | 显示全部楼层
    支持楼主。。{:11_337:}开心的扭来扭去。。; c- p& r' r" Y, m2 V
    我老了,上班的时候没有公网可以用。。。下班事情太多。精神支持!
  • TA的每日心情
    难过
    2023-11-26 08:44
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2014-6-1 17:40:02 | 显示全部楼层
    bt4baidu 发表于 2014-5-29 09:37 6 h8 S! B5 e8 g" f0 c8 R
    不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的7 j% k: `, k" G+ [+ q: D
    * ?% N8 T* O" j) M: n4 e6 E
    我的想法是大家每人领取50页 ...
    7 \! }+ u5 p$ U% c9 n) i# U
    期待楼主搞个MDX源文件整理软件,MDX源文件整理太难了,我制作出来的MDX都是比较丑陋的,没有加粗、没有图表、没有色彩……

    该用户从未签到

    发表于 2014-6-7 00:26:06 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑
      W0 E3 u8 _# [( s
    . H, @0 Q% c$ e" L; f重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
    , j. k( \$ H0 W! P5 Q8 t9 T" ^- A欢迎使用
    % Y, O$ P+ J1 V- k$ N$ a
    & `7 `1 o# A" ]1 n  Y# ?8 u  L' I. J) N( _
    链接:http://pan.baidu.com/s/1hqrDaPe 密码:qzl5

    该用户从未签到

    发表于 2014-6-7 02:33:36 | 显示全部楼层
    bt4baidu 发表于 2014-6-7 00:26 1 g& q( O. y+ ^  R
    重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。' Q3 _( K' N0 T: z& e; e$ t! \
    欢迎使用
    # a5 y5 {$ x9 x! M
    你这个工具好!不愧是高手!

    点评

    呵呵 抓紧干 本人想早点用上电子版的ECD2  发表于 2014-6-8 22:12

    该用户从未签到

    发表于 2014-12-24 15:41:44 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了: K" Q3 K, {% x$ t+ h& A6 a# a' Y
    并且好的词典也实在太少了啊% W' D+ g9 F, @) B. `7 [
    虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    该用户从未签到

    发表于 2014-12-24 15:41:53 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了7 p- Z9 P) T+ _% Q, [. s% U
    并且好的词典也实在太少了啊
    $ F: K- M* p# s3 @& t% E/ Y虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    该用户从未签到

    发表于 2015-7-1 04:20:41 | 显示全部楼层
    你好。我非常想弄一本英汉大词典的电子版。" n3 {: S8 L3 ^5 s
    但我人在海外。& e2 B! X  H$ `$ C  k! q/ G
    我买一本邮给你,你传一份电子版给我如何?
    ( |. Q+ A7 ^  t/ f, L邮件:[email protected]
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-20 12:52 , Processed in 0.041640 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表