掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: Cdasjkldjas

[讨论] 【讨论】如果要把老神仙的《英汉大词典》弄出来,XML标记怎么约定?

 关闭 [复制链接]

该用户从未签到

发表于 2014-5-20 15:55:57 | 显示全部楼层
怎么焚书坑儒了!{:11_317:}

该用户从未签到

发表于 2014-5-28 22:28:22 | 显示全部楼层
本帖最后由 bt4baidu 于 2014-6-12 16:24 编辑 : E7 o' n; d8 _7 D6 P/ w+ [- `, A
Cdasjkldjas 发表于 2014-5-15 13:43 ! A! z# U! _- K2 M( T, {7 A
谢谢各位回复,机器已到。' L+ X' ]4 R- Z8 y/ s

" q' a6 D4 g. ^: q6 ?; I! F* G最大支持600。
6 W8 d) a6 U4 F
: ]2 h( C9 n, b, B# ?0 D6 m4 g
根据#49楼主给出的扫描结果,写了一个格式化工具,下载地址如下:
1 s  o# x. p& p7 U# {7 n链接:http://pan.baidu.com/s/1hqmTwkG 密码:l4rv
4 Q% T1 E) z' Y1 T! Z: J( v, f. c* h0 \+ W% {0 u  ]0 ]

; Q2 B3 ^# a0 @& G经本人实测,只需要改正少量OCR识别错误,仅须不到30分钟即可校对完成1页
, _/ \, M  o4 O9 z+ a8 H/ G4 d
. @( \: m. t7 `+ }& r8 y( {# S8 R3 f) j$ E

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2014-5-28 22:44:42 | 显示全部楼层
补充一句:OCR识别文本一定要存成UTF-8编码,否则容易出乱码
  • TA的每日心情
    擦汗
    2023-9-2 09:16
  • 签到天数: 1103 天

    [LV.10]以坛为家III

    发表于 2014-5-28 23:55:14 | 显示全部楼层
    赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。只要对源文本用git等版本工具管理起来。多人同时修改不是什么问题。只要大家不是拿这个词典供着,真正使用起来的话不久就完善了,而且绝无痛苦可言。2 K+ N3 \) K6 J/ E( V( d# B

    ) z& o# _3 I0 Jbt4baidu是编程牛人,不知能不能编个转换多列pdf(?)成单列文本的工具,这样的话词典立即就可使用了。. |+ j, |* x/ X
    4 O9 s3 \( T% t$ a

    该用户从未签到

    发表于 2014-5-29 09:37:04 | 显示全部楼层
    spoony1971 发表于 2014-5-28 23:55 ; W% w# g9 r7 C9 i. c) j8 L+ F: V8 s+ o
    赞同犯人说,不如OCR后不加校对直接使用(多列转换成文本可能需编程解决),使用过程中发现错误再加以修正。 ...

    1 ]4 {- t/ B5 Y不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的
    9 k# w9 x0 Q( j3 t: g" Z* w! |& w) W- g4 c$ j$ D2 H
    我的想法是大家每人领取50页扫描图片,自己用ABBYY软件ocr,这样的好处是在ABBYY里就可以根据软件提示修改识别错误。3 X! Q8 Q4 m& ?9 M  x% {' F: J9 k+ }8 |
    % B9 M8 @) x( {
    保存为文本后用我的工具格式化,然后校对确认无误后,再通过另外的工具(我可以写一个)整成mdx源文件,完工
    2 n8 V1 {% y: P+ H" \4 b3 h) B( A$ D" H; O
    由于我手头的ocr结果有限,可能有个别地方格式化工具不能对应,这个可以新开个校对专贴来反馈,我可以随时升级工具(保证向下兼容)
  • TA的每日心情

    2018-2-6 10:27
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-5-29 21:19:29 | 显示全部楼层
    支持楼主。。{:11_337:}开心的扭来扭去。。) S! o4 U8 j2 V
    我老了,上班的时候没有公网可以用。。。下班事情太多。精神支持!
  • TA的每日心情
    难过
    2023-11-26 08:44
  • 签到天数: 49 天

    [LV.5]常住居民I

    发表于 2014-6-1 17:40:02 | 显示全部楼层
    bt4baidu 发表于 2014-5-29 09:37 # L: P9 y' p' K( j; K3 \: `
    不需要多列转换成文本,ABBYY可以保存ocr结果为txt文本,自动就是按词条的
    2 ^/ l4 S( o! {" k; F& v
    5 \* e3 ~9 T8 L- L4 W( w# ]6 N我的想法是大家每人领取50页 ...
    & X# m% h, f: f
    期待楼主搞个MDX源文件整理软件,MDX源文件整理太难了,我制作出来的MDX都是比较丑陋的,没有加粗、没有图表、没有色彩……

    该用户从未签到

    发表于 2014-6-7 00:26:06 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-6-8 22:10 编辑 : e7 b+ t8 c+ v' B
    ) R9 {7 ]" a/ e1 E/ y( D3 e
    重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。$ [# T; m3 \, `& q
    欢迎使用& f$ X/ j! v) L3 r

    # B3 W: Q' B5 {. d  p) _2 i) ]: ?! }' e
    链接:http://pan.baidu.com/s/1hqrDaPe 密码:qzl5

    该用户从未签到

    发表于 2014-6-7 02:33:36 | 显示全部楼层
    bt4baidu 发表于 2014-6-7 00:26
    $ p7 [* a- j$ z* M重写一个格式化工具,30分钟就能干完一页。且几乎不用录入多少文字。
    : ^9 _- E6 ~+ z6 U2 c欢迎使用
    9 z" Y" o; k# e3 M( y0 L
    你这个工具好!不愧是高手!

    点评

    呵呵 抓紧干 本人想早点用上电子版的ECD2  发表于 2014-6-8 22:12

    该用户从未签到

    发表于 2014-12-24 15:41:44 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了" ~: n; n: `$ e8 T
    并且好的词典也实在太少了啊
    % i: j  W( N1 q0 j& ^% {虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    该用户从未签到

    发表于 2014-12-24 15:41:53 | 显示全部楼层
    是的,出版社的利益没保证,以后大家就没吃点了,建议等到第三版上市后在放出文本化版本,和高清扫描版,虽然说起来盗版可耻,但是电子词典的方便性纸质版是没法比的,这方国内做的实在太差劲了
    * N3 a. Z9 J0 H; q) u1 z并且好的词典也实在太少了啊: f! F$ {0 Y& a: C& T
    虽然需要,但是还是强烈建议等待第三版上市时候,在放出来吧,到时候第二版虽然还有价值,都是残余价值了,不太多的价值了,出版社不知道会不会介意

    该用户从未签到

    发表于 2015-7-1 04:20:41 | 显示全部楼层
    你好。我非常想弄一本英汉大词典的电子版。1 c& B8 \# H& i$ m1 ~4 N6 W  R
    但我人在海外。
    9 W- E8 {/ P7 K& V  s# [0 e. I我买一本邮给你,你传一份电子版给我如何?
    7 m! Z4 m4 D- [2 r7 G, r邮件:[email protected]
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 14:27 , Processed in 0.054262 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表