掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5849|回复: 32

[词典讯] 有道字典手机版提供了离线柯林斯词库

[复制链接]
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

    发表于 2016-8-22 21:23:03 | 显示全部楼层 |阅读模式
    如题,离线词库格式为dat,下面是离线词库链接,不知哪位大神可以提取出来,毕竟坛中的双解柯林斯多或多或少的有些缺失。
      s. _- T+ i- G1 O) Z2 N
    0 j, k# c9 E: T+ t$ s; K! x' jhttp://pan.baidu.com/share/link? ... 8&uk=2500300905

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-9-28 08:39:12 | 显示全部楼层
    本帖最后由 bt4baidu 于 2016-9-28 08:40 编辑
    0 t. p6 w! r1 B, }6 F/ X# q$ s7 ]! \. K3 w" D! z/ d: q
    如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可- s8 q; X/ \) |8 f9 @

    3 J/ J/ Q/ s5 p, f如果离线数据收了官网未收的单词,抓取时会报404错,自然知道官网缺哪些词,就可以把这些词从离线版里抽出来整合进去
    / K5 B( b0 ^- y9 j8 I! V/ D
    ) d  i, |! B) g1 @! Y至于官网收而离线未收的单词,就比较不好办,不过既然qiuhao1112之前用单词表轰过,可以用他那版的词头和新作差分一下,也就是几行代码的事情
    $ _. h8 A$ G0 g: @: Q7 o2 F或者用CED的单词表和新作差分后,再去轰一下也未尝不可
    + @+ U' X; d+ ~7 O7 L
    $ I( T4 o" L. @& K3 K' t只提供思路,英汉词典,本人是不会出手的
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-9-28 08:38:28 来自手机 | 显示全部楼层
    非常有必要!以后说不定都搞成在线的了,趁现在还有离线数据把它搞出来也是一件大功德

    点评

    同感啊!支持~~  发表于 2016-9-28 09:02
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 01:13:18 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 01:16 编辑
    ; d' f. u4 q! {7 \7 ]
    henices 发表于 2016-9-27 23:124 _! ~4 X' W/ c2 M% ~( ^
    有重新弄的必要吗?
      Z3 a4 K( Y" \- \* h' K( E
    . m& T) F/ `4 T8 o& P9 Z6 o
    个人建议henices大可以把有道的柯林斯双解的离线数据提取出来制成mdx词典,然后跟qiuhao1112常委网页上抓取的版本进行合并,能做到词条的完整。qiuhao1112常委抓取有道柯林斯双解的数据是用单词表去轰炸的(这种情况是针对词典网页完全没有词头索引的情况),难免有遗漏的词条。(抓网页的单词表中没有那个单词就会造成词条的缺失)。但是,有道官网的柯林斯双解数据更加新和更加完整。您可以在有道官网查grieve词条,可以发现第二个义项下的释义与离线版的柯林斯双解相比,官网的增加了grieve的语域Scottish。说到这里,突然意识到我刚才说的合并词典很有困难:有道官网的柯林斯双解数据更加新和更加完整。/ H8 X4 V' U7 e8 `- U; M- _
    我在这个链接下的帖子中探讨了grieve词条:9 Z" x  \1 h: q2 D
    https://www.pdawiki.com/forum/fo ... hread&tid=17422

    该用户从未签到

    发表于 2016-9-27 23:48:37 | 显示全部楼层
    這是當然有必要的!有道的柯林斯英漢雙解大詞典,誠如 O 大所說,是以稀為貴的代表。即使可能有這樣那樣的問題,但是結合多個數據源,一定是能精益求精的。

    该用户从未签到

    发表于 2016-9-27 23:12:34 | 显示全部楼层
    有重新弄的必要吗?

    该用户从未签到

    发表于 2016-9-27 23:26:39 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    - h6 I( S5 V0 X% E有重新弄的必要吗?
    $ w$ U6 }# I2 ?( Z0 W: Z

    ) O  {, e" Q; {3 U 1 t% w/ P% L! |- b5 _+ h
    相当有必要!% }1 ~; b8 p/ L) p" M6 L1 g
    qiuhao1112 抓取的版本,缺了大概 1% 。不过有道这离线版本,其实数据也比较糟糕,不过凭兄台的能力,肯定没问题的。+ B# Z0 g$ C# S3 ^/ u9 u
    有道词典的《柯林斯英汉双解大词典》,收词量其实是 Collins English Dictionary 级别,远超金山词霸的《柯林斯COBUILD高阶英汉双解学习词典》,堪比《新牛津英汉双解大词典》,虽然缺少了词源,译文也欠讲究,但是终究是稀有的东西,很有参考价值。  o+ w4 L8 L" |6 u8 v
    5 m. d# Q$ O8 O1 }% N' X
    2 Y5 ]1 n$ w. n( V& K$ I& r' D
  • TA的每日心情
    开心
    2025-1-7 17:15
  • 签到天数: 773 天

    [LV.10]以坛为家III

    发表于 2016-9-27 23:48:25 | 显示全部楼层
    henices 发表于 2016-9-27 23:126 V3 e6 c, p& f$ x: ~" z; H
    有重新弄的必要吗?

    * k5 k/ T5 y4 l' }有必要,很有必要。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 00:47:56 | 显示全部楼层
    henices 发表于 2016-9-27 23:12' V- {/ k4 n6 X3 w8 b+ Z
    有重新弄的必要吗?

    / Q% m( P8 B, n& Q; N8 W% F3 A目前发现qiuhao1112常委的有道柯林斯双解的词条与有道官网相比,少了词条bloodletting,不知道有没有少其他词条。

    该用户从未签到

    发表于 2016-9-28 08:52:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:12- ]/ `1 b' K  D5 z9 M+ t! W% Z
    有重新弄的必要吗?
      z: r! p0 t3 s7 {, T+ ~
    大神您既然都问出来了,想必也是已经有几分想制作的念头了。其实这个柯林斯词典的母本就和柯林斯的足本(http://www.collinsdictionary.com/dictionary/english)有渊源。可以说,它是个双解版的类足本词典,这类词典基本上比较少。0 F1 s4 b$ `; S/ l2 t  r

    / X6 r* L$ {5 I+ h" w想楼主与大家都比较喜欢的《新牛津英汉双解大词典》,可以说能与之比肩。细想起来了,同等规模的双解足本,大多没有电子版数据。比如新出的《新世纪英汉大词典》,所以这本有道柯林斯,就是当仁不让的柯林斯双解足本的替代品了。它里面的内容是混搭的,融合了COBUILD的例句解释(这就对英语学习者比较友好了)和《新世纪英汉大词典》方面的大容量(其词条容量是柯林斯高阶的两倍多),不可谓不强。
    0 P, d3 V( k; u& L/ y5 S  }/ j1 S: w5 P5 j0 v8 R
    楼主已经掌握解析 dat 数据的秘诀,取得数据也是不费吹灰之力之事。若是下定决定决心制作。也是很好的事情!另外,bt4baidu 大神的思路也是极好的,楼主也可以参考看看。

    该用户从未签到

    发表于 2016-9-28 09:06:50 | 显示全部楼层
    bt4baidu 发表于 2016-9-28 08:39
    0 z' G* R  h* X1 D& i如果官网的数据更新更全,可以把离线版的词头提取出来,用这个词汇表去官网抓取即可* f9 H. x1 w. A5 Z0 H' f9 }/ S

    - q& E" }  g) K  m# A' y2 T如果离线数据收了官网 ...

    0 S. Y4 j9 f- J7 H% E/ y; i官网有防爬虫之类措施没?

    该用户从未签到

    发表于 2016-9-28 09:13:50 | 显示全部楼层
    henices 发表于 2016-9-28 09:06
    + j* j/ M+ |3 U+ b官网有防爬虫之类措施没?
    : Q, D1 Y! Z; |) h
    都能用单词表去轰,肯定是没有啦0 h# I, ^" b1 T3 Q! H+ \4 T
    就算有,无非是封IP,现在都是ADSL,重启一下路由IP就换啦
    % i7 Y/ O, e: t. I3 p! g据我所知,除非记录一个IP在某个时间段的访问量,否则是没办法防的,但是抓网页其实费不了什么带宽,基本上像样的服务器都不会在乎这点下载量,抓本词典也就几百兆1G而已,和普通网页用户访问几乎没啥差别,一般服务器也懒得费那个工夫
  • TA的每日心情

    2022-6-14 08:58
  • 签到天数: 25 天

    [LV.4]偶尔看看III

     楼主| 发表于 2016-9-28 09:18:51 | 显示全部楼层
    henices 发表于 2016-9-27 23:12
    4 i. ^6 y! d' K6 u" O1 z有重新弄的必要吗?

    9 x4 X# [- w2 w( R; G2 S7 U( @" _4 j离线的词条数是97239,qiuhao1112大的词条数是91384,少了6%。

    该用户从未签到

    发表于 2016-9-28 12:09:05 | 显示全部楼层
    henices 发表于 2016-9-28 09:06" o) q4 `0 I# u$ W1 ~5 @- t4 e) @
    官网有防爬虫之类措施没?
    7 y, n7 f  \4 J3 D& @5 R

      R7 q. @7 M2 \8 I# u& @建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)
    . X3 z9 p0 s: C* J( @( H- L( t有时候一图胜过千万语
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:26:19 | 显示全部楼层
    真是奇怪,我有一次用有道官网查单词,居然被封了一次IP

    点评

    看来兄弟的人品确实是有问题的,哈哈,开个玩笑  发表于 2016-9-28 15:30
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-9-28 12:31:53 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-9-28 12:33 编辑 9 G/ S' i1 A0 o" I+ e: ^
    bt4baidu 发表于 2016-9-28 12:09: H1 h/ r1 \# H5 C
    建议:你若真打算做,抓网页时不妨把图片一并抓下来,很多词条都有插图(其实是网易盗用wiki等网站的图片)( [" B& [) E6 ]
    ...
    " j5 B" l) ^9 ]1 q3 s
    9 f2 {/ J# I' ~! ]% H, q2 Y% v
    以前没有用mdx词典时,用有道在线的柯林斯双解用了无数次,没有发现柯林斯双解有过图;有图的单词图片经常是错的,要抓有图的单词,不如去抓bing dictionary online的图片,单词与图片对应得非常准确!, K- o7 j) w, {
    ! r8 @* g0 L- B
    bing dictionary online: http://cn.bing.com/dict/

    该用户从未签到

    发表于 2016-9-29 02:25:16 | 显示全部楼层
    才发现原来有道的柯林斯不是单单的cobuild双解啊,我一直奇怪为何讨论这个:不是早就有了吗?原来如此,大力支持有IT能力的兄弟搞一个。
  • TA的每日心情
    开心
    2023-1-18 23:24
  • 签到天数: 211 天

    [LV.7]常住居民III

    发表于 2016-10-12 23:49:52 | 显示全部楼层
    本帖最后由 kyletruman 于 2016-10-13 13:02 编辑 ; u( ~7 T( a0 X. Z5 G
    9 e0 a! t) }. b4 L; Q" n3 g2 F$ z3 C
    还发现一个单词pal,在线版的有道柯林斯双解是有语域 [非正式,老式]http://dict.youdao.com/w/eng/pal/#keyfrom=dict2.index,而离线的柯林斯双解数据没有这部分。看来离线的柯林斯双解数据没有跟上在线的柯林斯双解数据的更新。: X2 X% T. q. I& s1 b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-11-1 23:23:25 | 显示全部楼层
    已经用离线词头抓取数据,整理制作中

    该用户从未签到

    发表于 2016-12-27 12:27:04 | 显示全部楼层
    非常有必要,加油

    该用户从未签到

    发表于 2016-12-29 19:46:48 | 显示全部楼层
    有道 有些坑

    该用户从未签到

    发表于 2017-4-2 14:09:19 | 显示全部楼层
    感谢您的分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-17 17:04 , Processed in 0.025150 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表