掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5874|回复: 27

[存档] 收到警告,暂时休停

[复制链接]

该用户从未签到

发表于 2012-5-26 22:52:36 | 显示全部楼层 |阅读模式
本帖最后由 hanyl05 于 2012-5-30 22:46 编辑 8 j% f- s  `: T$ n) }% h

+ g& |. t# \9 u由于收到警告,暂时休停。

该用户从未签到

发表于 2012-5-26 23:20:48 | 显示全部楼层
lz给的文件只有3万多行,这个全吗?另下载会来了有什么办法进行批量编辑吗?

该用户从未签到

 楼主| 发表于 2012-5-26 23:25:14 | 显示全部楼层
lz给的文件只有3万多行,这个全吗?另下载会来了有什么办法进行批量编辑吗?# B) L% z: M9 r5 j! K; \: ~& u% _
ifree64 发表于 2012-5-26 23:20

! l# h. E0 J5 C) z/ D6 `( W9 \$ g; U% X& d
应该是全的。
. W# [, E( f/ m7 _6 a3 D1 b+ S建议会一些基础编程知识再去下载。
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-27 07:58:03 | 显示全部楼层
    这样囫囵吞枣下载会有很多不需要的代码内容,包括广告

    该用户从未签到

    发表于 2012-5-28 09:14:30 | 显示全部楼层
    4# huala 只要有包围内容的特征字符,还是可以提取的。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-28 10:25:56 | 显示全部楼层
    路过!

    该用户从未签到

    发表于 2012-5-28 17:01:28 | 显示全部楼层
    本帖最后由 ifree64 于 2012-5-28 17:03 编辑 % U9 j7 N: p+ r0 w6 q; ?! h

    - c+ ?6 a1 s3 f- G& e5 d2 T发现很好提取内容。但总觉得楼主提供的“全部地址”不全,才3万多条。我买了这本字典的纸质板,上面的广告说是收词/词组110000+条。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-28 17:25:48 | 显示全部楼层
    3万多是有些少,7楼拿纸版比较便知缺什么。
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-28 18:40:48 | 显示全部楼层
    宣传的数字不是指单词条目,这是词典商一贯的促销吹嘘手法
    ! ^7 I% \5 O: G( g* @$ N( e+ c5 Z1 f
    单词条目数,就是Mdict左侧显示的词条数,差不多就3万多。
    2 D. N9 s4 Y" A2 q+ y% Z9 g, v9 _
    我有纸质的,没精力一一细对,但大致数量是符合的。

    该用户从未签到

    发表于 2012-5-28 20:33:16 | 显示全部楼层
    有url就很好办了,wget -i指定url文件,批量很方便。注意编码,你的文件前面有bom. 可能会有问题,存为无bom的即可。
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-28 20:56:48 | 显示全部楼层
    发现很好提取内容。但总觉得楼主提供的“全部地址”不全,才3万多条。我买了这本字典的纸质板,上面的广告说是收词/词组110000+条。4 i# b* U: C9 p/ D- O: E9 N
    ifree64 发表于 2012-5-28 17:01
    0 g( i0 H( X+ \& ?# A2 P0 W5 D; r
    不知是怎么统计的,不过就算只有3万词条,对一本通常收词在6万到8万的学习词典来讲的确是太少了。
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-28 21:24:14 | 显示全部楼层
    本帖最后由 huala 于 2012-5-28 21:26 编辑
    / S# D  x9 r" o# |( e- X* E3 }0 k1 O, }# A* V* K9 s
    3万词条少吗?一点不觉得,Mdict词典中经典的牛津四双解,yru制作,单词条目数才22298个。
    % o" g2 ?# b* l词典商把能统计的都算上了,比如形容词的词条下一般会带衍生的副词,
    ; ^$ D5 \( L( H! _; m: S5 r! n4 \统计时词典商会把“收词”算成两个,6-8万还不是轻轻松松就统计出来了。
    7 o5 v1 y  r% n请不要混淆“单词条目”数和“收词”数

    该用户从未签到

     楼主| 发表于 2012-5-28 22:54:15 | 显示全部楼层
    作为词典的骨灰级爱好者,可以负责任的告诉你这个数据是可靠的。
    * K+ h. E, V0 n3 M" j1 [词典宣称的统计方法很夸张,不同的出版社宣传时的统计方法不同。
    - q' n+ _4 T7 U; [" s% G; m
    " q9 \4 _2 F* ^0 E% Y一般是把主词条,衍生词条,解释的项目(义项1,2,。。。),例句等都统计上,也就出来了十几万的数据。1 S6 S- Z: t7 l9 c8 }4 r7 d
    OED首次才25万,这个是毫不含糊的。其他都是在胡乱统计。

    该用户从未签到

     楼主| 发表于 2012-5-28 22:55:46 | 显示全部楼层
    另外,柯林斯的是有词频的,希望提取的时候不要遗漏了,尽可能完美吧。

    该用户从未签到

     楼主| 发表于 2012-5-28 22:56:56 | 显示全部楼层
    另外,金山的程序员通常都强奸破坏词库,总是缺斤短两的,有些金山没有的,但原本该有的,比如以 ‘ 开头的词条我删除了。

    该用户从未签到

    发表于 2012-5-29 10:42:59 | 显示全部楼层
    已经下载并提取完毕,总共下载了36323个文件 ,不是特别完美。

    该用户从未签到

    发表于 2012-5-29 11:57:06 | 显示全部楼层
    本帖最后由 ifree64 于 2012-5-29 12:19 编辑 & X- `5 f; D5 K3 y
    : L3 J; @. U$ @1 n  ?
    制作完毕,以后有时间了再完善。这么我好像发不了资源连接呢?% D3 \" D% j8 A4 x  m" r
    声明:本词典仅仅是本人学习制作mdx文件之作,放着这里也仅仅是为了与同好讨论mdx的制作技术,如果侵犯了您的权限,我将立即删除,并表示万分歉意。您只要下载或者使用这个资源(不管从哪里下载或者得到的),都说明您发誓做到如下内容
    / ?9 z/ U5 O0 r“我同意:下载或者使用此文件仅供个人学习mdx制作之用,不用于任何商业用途;同时我必将购买对应的正版产品。”
      i; y1 X& ?2 c; J9 [9 [4 Q: @3 H
    $ @8 H! h8 X! _2 F
    115 共享% u* |' X. V3 v6 d! B. X
    mdd: bemg3w5r#
    ; u9 y5 \/ ]: {4 d) hmdx: c2e3mxas#
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-29 15:38:37 | 显示全部楼层
    楼上造福大众,版主帮忙弄一下链接吧
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-29 22:07:08 | 显示全部楼层
    这么好的东西,不能下载。都把人给急死了。

    该用户从未签到

    发表于 2012-5-30 10:25:40 | 显示全部楼层
    可以下载的,用u蛋粘贴提取码!
  • TA的每日心情
    慵懒
    2023-3-29 08:16
  • 签到天数: 1462 天

    [LV.10]以坛为家III

    发表于 2012-5-30 17:22:38 | 显示全部楼层
    本帖最后由 huala 于 2012-5-30 17:24 编辑 : \6 X! n2 U' w( k# ^
    3 A+ v& B* Z+ [1 d: d% F
    感谢楼主的劳动
    / k+ p8 [  h0 g4 i, q$ Z! P4 M! H& s" O; X+ Q) e% Y
    待完善的地方:显示区单词条目、音标、词频没有,例句超过3条的都没显示,语法信息也无( ]6 |- k+ ~: x5 o& \& u: {+ {( {

    ! H- L! i: N& ]是不是可以试试用正则把javascript的地方都去掉
    1. <a href="javascript:;" class="info" onmouseover="showTips\('word_gram', '(\d+_\d+)'\)" onmouseout="closeTips\('word_gram', '\1'\)"></a>
    复制代码
  • TA的每日心情
    开心
    2020-3-8 09:14
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2012-5-31 17:21:58 | 显示全部楼层
    可以下载的,用u蛋粘贴提取码!. [* ?( I% Z2 l- U9 F# G
    heshunyihugh 发表于 2012-5-30 10:25
    3 z; l  X! J& W! i
    谢谢指点!

    该用户从未签到

    发表于 2012-5-31 20:39:48 | 显示全部楼层
    本帖最后由 sxingbai 于 2012-5-31 21:34 编辑 / r0 Z6 }( P0 ~0 A- [: D
    $ v0 `# n( x2 Y) w" B5 r5 t
    17# ifree64 8 s3 T8 V+ S; j/ ?
    多谢,做得很好。

    该用户从未签到

    发表于 2012-6-5 07:57:23 | 显示全部楼层
    稍做整理,准备去除冗余2 M9 V: Z$ ?. C' f) y; u

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2024-7-18 07:06
  • 签到天数: 1189 天

    [LV.10]以坛为家III

    发表于 2012-6-5 20:08:21 | 显示全部楼层
    感谢楼主的劳动& @* K1 L# G0 R( H, L
    待完善的地方:显示区单词条目、音标、词频没有,例句超过3条的都没显示,语法信息也无
    . h1 O. X/ g  |" E* r+ |) P7 Q
    & F+ f' H1 @6 x  T, L的确这样,希望有改进!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-7 08:38 , Processed in 0.026774 second(s), 27 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表