掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3729|回复: 22

[词典讨论] 自己动手:VOCABULARY.COM DICTIONARY 自动更新

[复制链接]
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-20 17:32:29 | 显示全部楼层 |阅读模式
    本帖最后由 bolome1 于 2014-7-20 17:59 编辑 ; a, Y1 ]/ R: N* P$ H
    1 r1 u! y  V, _
    搬运贴。https://www.pdawiki.com/forum/thread-12743-1-1.html3 f8 y) S3 L, s/ P  a  g) s

    # u, Y3 P- P( d# {自从看到yaodis 的vocabulary dictionary 从此爱不释手,立马列入主力词典之一 https://www.pdawiki.com/forum/fo ... hread&tid=12390
    : `* q" p% L) N" c+ o: q* R- g! o
    2 \' Y' e- k' a6 \2 p+ @  ^但是还是有缺憾,词频的数据抓取不全。
    ) {/ z$ _# v" P) b不过刚才发现了解决方案:0 @; n" B, z' f6 f& x* S* p, T- ]3 g
    https://github.com/OZv/E/blob/master/README.md
    # L% T% M; t, _4 [; f% B: T4 H0 j- ?4 Z& a5 M+ H3 [

    : S" z$ |! {2 a待编辑...
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-20 17:45:43 | 显示全部楼层
    占楼

    该用户从未签到

    发表于 2014-7-20 21:23:07 | 显示全部楼层
    呵呵,倒替我做起宣传来了,再加几条:
    3 Q, @1 ?+ M' S
    & E) {. q1 ]( j( F: G: x& v  P这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘也不用敲一下' Z( t  I5 B) \: V

    + D2 T# Q! Z* ~: `6 l8 b/ _自动重试、无人值守、断点续传,即使遇到网站抽风、连接中断都不怕;
    4 E! [  M/ H0 `) C; Y' j$ N  Y更有强大的错误检测可以保证数据完整无误。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-20 22:24:38 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-20 22:29 编辑
    / [- |9 p! I; A- E6 v
    bt4baidu 发表于 2014-7-20 21:23
    6 G1 ~/ `  O1 g$ Z. K呵呵,倒替我做起宣传来了,再加几条:
    . ^0 Q" D- t& e
    3 S4 `+ N5 ]! F这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...
    + D! b$ P4 ?! u. B' y$ g3 b1 l
    $ Y) m  j7 i% Z. ~) J: J% [
    用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的
    % s; q1 C/ G# V$ ?$ O再次感谢!

    该用户从未签到

    发表于 2014-7-20 22:41:35 | 显示全部楼层
    bolome1 发表于 2014-7-20 22:24
    + ^6 P4 L" W; ?  e6 E# \  C用了一晚上,感觉真的很有帮助,内嵌的高质量例句帮助太大了。。而且也是自己一直想要的. K# r: ]" f2 z4 p0 x
    再次感谢!
    * x. M) p" K/ ~# F& W9 ^1 W6 f
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的2 S# f) x# s3 f* L

    & k% w% g+ M; w4 d其实reuters、BBC NEWS、VOA、Yahoo NEWS这些媒体出的IOS APP也都非常不错,篇幅适中,很适合零散时间阅读。
    $ V+ C( ?4 m4 A% a$ `2 X+ X' S
    : E  @4 u. a% v) u本人超喜欢reuters的排版和实时推送,这个APP已经被我放到桌面第一页,有空就打开看几篇。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-21 10:00:00 | 显示全部楼层
    bt4baidu 发表于 2014-7-20 22:41
    ' ?( p7 p1 l( w* m4 d* y- T这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
    1 m2 {" p  y4 _* r3 \/ @4 X6 h( }1 H, t
    其实reuters、BBC NEWS、VOA、Yahoo NE ...
    1 s6 Z8 S, f+ T/ A9 x, K* V
    嗯,有时间试试reuters,另外,卫报排版也还行
    & ^  G! m* ]6 a& I! u' T+ J还发现个好处。。Fish和fish Water和water这样的词在原网站是分开查询的。。这个词典竟然能一起查出来,非常棒
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-21 17:24:13 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-21 18:00 编辑
    9 j& ~% ~" j$ K' M( y
    bt4baidu 发表于 2014-7-20 22:41 3 D# l5 m: d/ n  @# m/ g  H4 @
    这些可都是英美主流报章的实时例句,高频词一天都更新好几回的
    $ O5 K+ I; k+ P- |2 j. Z! Y6 l* h" A8 `
    其实reuters、BBC NEWS、VOA、Yahoo NE ...
    1 u4 p: e) ?4 \5 Q. e! g

    3 W1 I2 ?3 K* B# c6 |3 m5 z8 G在使用的时候有一个小小de地方不太方便,也不能算是bug。
      a( l% k$ c  k( v$ `因为我在使用Goldendict的时候通常需要复制短语或句子,所以点开了词典内置的一个“单击选择单词功能”,类似于通常情况下对某个单词进行双击操作。, c# b& U4 ~3 g% p8 c" a9 c
    在使用vocabulary.com dictionary的时候遇到了的小问题如下:, Z0 j9 I0 a/ y: j
    . a5 m3 F9 a! v$ }+ E# w
    请单击点开看大图
    1 ]7 _( e) X9 b. w' U, _8 c6 t2 g* I3 ]6 y6 @  f0 M# y# @

    ) t: @! |5 b) [8 ^; X9 }也就是说,点击释义的第一个词carefully,词典选中的不仅仅是这个单词,还把前面的词性“adj”包括了进来。3 {  u4 {" S* @( A/ o
    如果第一个单词不认识的话,通常会习惯性双击跳转新页面看一下解释,现在的情况是把“adj”包含进来后,直接双击就查不到了~得手动输入一下(我已经懒到用鼠标设置宏来辅助查词了)。  K* l9 ?3 i0 j4 I+ |1 L3 f

    5 K9 Q: p: w- a) L如果大神有下一版本,还望更新下这个小地方。。没有下个版本就算了~~已经很满意了。{:10_274:}

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-7-21 19:42:22 | 显示全部楼层
    bolome1 发表于 2014-7-21 17:24
    + l% G) i) e2 y/ N在使用的时候有一个小小de地方不太方便,也不能算是bug。
    + C" g8 I4 E) }因为我在使用Goldendict的时候通常需要复制短 ...

    9 N/ H# y: D0 P* N! U% q- m8 h直接双击就跳转了啊,为什么要先单击选择后再双击呢。8 D' i' q+ _# T3 o) f7 r
    不过双击时也会出现这种问题。{:10_277:}
    7 ]; Q9 E3 ~4 G9 k7 X1 u8 F这应该算是Goldendict的bug,它没有把单词切分开。按理说词性和释义分属两个不同的span,应该可以切分开的。
    6 X$ b6 _8 w5 u9 k% U+ o4 Y& E& {+ R* v. `2 P
    欧路单击跳查就没有这个问题。" S) g  l. O; y

    9 }9 m7 X! o' O) s; H回避的方法就是在词性和释义之间加个空格。解开mdx,搜索所有的“</a><span class=t>”,替换成“</a> <span class=t>”
    $ I2 ^0 B) B0 H4 }
    ) `+ I/ x" v3 P* n) C! q下一版。。。没打算出下一版,除非发现严重影响使用的问题。。。" Y1 Z0 e+ N% ?5 k3 e+ ~6 u* P
    也许逢大型节假日会更新一下数据,那个时候可以做些调整。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-22 19:54:17 | 显示全部楼层
    bt4baidu 发表于 2014-7-21 19:42
    8 [+ }# _! E& x( D4 e+ k1 T5 Q4 ^直接双击就跳转了啊,为什么要先单击选择后再双击呢。
    - [: J& A5 r; X; f4 _不过双击时也会出现这种问题。" w8 M' Z  D3 V6 H5 ~
    这应该 ...
    ' b) v% A6 u4 _
    7 V. r% v4 S: F
    发现一个小问题/ G$ X$ n5 S: v. |3 n7 m" o
    "throw up"这个短语没有usage examples (查原网站是有的)
    / f- a2 i1 U2 V2 ]) W7 F: h手机的欧路和PC的GoldenDict均无法显示。

    该用户从未签到

    发表于 2014-7-22 21:02:58 | 显示全部楼层
    bolome1 发表于 2014-7-22 19:54 ) _% z' o3 w, D7 C4 a/ j
    发现一个小问题6 B% _; P- f, ~7 x- F5 @5 Z
    "throw up"这个短语没有usage examples (查原网站是有的)
    . V8 o; C; A4 ^手机的欧路和PC的GoldenD ...
    * J7 ]1 R- X( s7 I- L
    这是个大问题啊
    9 K# R; x) x% f& N" n( U# e& H1 ?+ Y9 v1 b, P/ ^  @! L
    果然是深度用户,全文搜了一下,148730个单词里有111580个是带USAGE EXAMPLES的,3w多个没带的。
    / ~) {. T4 s4 ]' u) z) {% h( ^这其中有些确实是过于生僻没有USAGE,但是恐怕还有部分是和throw up同一问题。3 ^! j0 C- C/ Y0 G7 m4 U5 k6 w

    ' Z) M' l; B9 r: N2 A  F! R原因是该单词的语料数据URL比别的单词多了个&filter=2,造成数据没抓下来,需要给程序打个补丁。
    . o) @& W3 U4 c  V' O7 ~# G$ v8 p
    ! E3 W$ U2 J) ?. u# U/ P. D% c2 H& ]% R& h+ S$ S6 y  G' h
    继续帮我挑错,攒到一块改{:10_301:}

    该用户从未签到

    发表于 2014-7-23 22:19:51 | 显示全部楼层
    增加一处备份,以防GitHub被墙4 ?3 @7 a; x$ o% E
    " Q; V# \6 o* |% C# t' i% ^- b
    http://git.oschina.net/OZv/OC/9 y& ]4 z* f1 [  S

    & t0 f" e$ I: |. a

    该用户从未签到

    发表于 2014-7-26 08:41:40 | 显示全部楼层
    你激发了我学习python的热情
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 20:52:30 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-26 20:55 编辑
    7 z- n, g2 \, c9 D" i+ ^: a3 b
    bt4baidu 发表于 2014-7-23 22:19 ) E8 `, ]( @3 c$ ?) j
    增加一处备份,以防GitHub被墙: p6 @$ K. k& I- T* d
    6 C3 x, j9 \% `
    http://git.oschina.net/OZv/OC/
    " Y, R1 }5 G* O' K6 u  v2 J1 {0 V

    * o! S  G# [+ b; N比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。
    0 |" |2 z/ J  C( ^大概就是这个规律。

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-7-26 21:25:31 | 显示全部楼层
    bolome1 发表于 2014-7-26 20:52 * B* y' S: A  C( f5 @- ^
    比如我点第三行的 fought ,跳转到的是最左边的quality。点旁边的often,跳转到的是quality前面的the。4 _7 }; s: T; b5 d9 E, ?+ _4 p4 ]
    ...
    ' E2 t2 y* g0 P
    可以确定是欧路的问题。, P: o# @" e, \6 B3 f! U( R5 Y
    你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。! t' }* l! v2 p8 v

    + ?2 H. T" S: s' }2 x; Q" O欧路点击跳查的实现方式比较蠢笨,似乎是把一段文字拷进内存,分析后又贴回去的。( C1 W2 T: l% G& B6 e
    IOS版欧路有一个问题也是点击跳查时发生的:8 `$ M" Z8 Z( O& x0 L* i( y/ l
    不带简介的单词,点击Usage examples的第一句的任意单词后,这句话会消失部分文字。' _% q7 V9 o: G/ H5 z  d# C  z
    这个问题在Android版没有出现。" a- B8 U: H) G# k  Y
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 21:28:50 | 显示全部楼层
    本帖最后由 bolome1 于 2014-7-26 21:30 编辑 7 Y: M: W" \" O6 b6 S# l
    bt4baidu 发表于 2014-7-26 21:25 4 g: Y6 Z, ^6 P3 b! a5 f/ r0 m
    可以确定是欧路的问题。
    3 {/ M; _) `  r( t- y$ g你可以在欧路的设置页里面给欧路发问题报告,他们会回复的。
    , t' Q) {6 N1 j$ n5 K3 D7 r- |& f  X

    ' G/ V2 E  ?  F- M  x7 }2 T那usage example和下面wordnet部分的单词都没问题如何解释呐?

    该用户从未签到

    发表于 2014-7-26 21:47:52 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:28 4 m0 t' t/ O! ^! F2 m: o
    那usage example和下面wordnet部分的单词都没问题如何解释呐?
    4 t/ M5 X! l% e" r
    这就是欧路诡异的地方了
    : ~$ C! W! c! B2 G& h* ~; p' M
    ' s7 H/ k) j& |6 d: t4 z3 a我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点中文字的背景色之类的,否则无法解释页面为什么会错乱。读取操作不会改变页面的。
      n4 k( D4 L+ A3 w, c# T- S
    " x# l) V6 y6 p, I. z9 a至于别的地方单词没问题,这和欧路的代码实现方式有关。  t2 H, K0 m4 z" V5 M
    如果它截取HTML时取对了,自然不会有问题,取错了,再写回来就会导致页面错乱。( @% s+ s0 @2 Q2 j8 U
    & `; |9 S; `3 _# Z: e
    为什么说是欧路的问题,可以做以下试验:
    ' A: |- Q. ]! t. r2 Z5 E! ?; Z8 _9 b把mdd文件删掉,仍然会出现同样现象,这样就可以排除嵌入js脚本的嫌疑。
    0 n! J2 @! K5 G, I2 _. Z& @4 @1 {  G" a7 U) }
    其实mdict、深蓝、欧路、Goldendict这些软件,远没有你想象的那么好,里面的bug一堆一堆的
    3 k% y, ?2 `& Y" k# |$ Y搞得我做这个词典痛苦极了,左闪右躲,回避了很多问题,要不然你还会发现更多诡异的现象。
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-7-26 21:55:44 | 显示全部楼层
    bt4baidu 发表于 2014-7-26 21:47
    3 R& @! q( q- _这就是欧路诡异的地方了  E/ S0 d. P4 _
    . a  d3 I* s9 T& I) }
    我猜它之所以要对点中的文字做手脚,可能是为了实现某些特效,比如临时改变点 ...
    . K( i- P+ q" E* m2 C
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。{:10_277:}

    该用户从未签到

    发表于 2014-7-26 22:46:41 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:55 $ j9 `1 A7 m' s# _
    记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
    ( }& ]5 E9 q8 {% y; G$ f/ g! c
    愿望是美好的,现实通常是残酷的。。。
    % z' m1 l+ @7 b# f8 V' |  s  ?( [4 p6 w" ^
    从你发现的这个问题的现象看,像是欧路判断文字坐标出错,截取错了HTML,可能和手机屏幕分辨率有关
    . W# Z* q& W3 g$ l" w: o4 kcss外置不太可能回避该问题# y! w( Q9 C; v

    ( s8 f5 d6 a- r2 U" J$ [& B9 v建议在软件里 提交问题改进建议 给欧路

    点评

    提交了,反正GD才是我的爱  发表于 2014-7-26 22:59

    该用户从未签到

    发表于 2014-7-28 09:53:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-20 21:23
    0 r1 G; ?8 `" h: j7 A' [' @1 p/ \呵呵,倒替我做起宣传来了,再加几条:
    - Z+ R6 g1 q( \
    : Y" W7 g9 g- J' q; ?这个脚本经过本人几轮修改,已经完全达到傻瓜级,整个过程连键盘 ...
    4 n+ R+ ]7 R" J. C, g0 k. V+ n
    原來bt4baidu 你是學編程的

    该用户从未签到

    发表于 2014-8-2 12:41:14 | 显示全部楼层
    bolome1 发表于 2014-7-26 21:55
    " `7 k1 H  B5 M3 r& m记得楼主新版本是要用css的对吧,那么原本mdx的内容删减很多后说不定欧路就认识字了。。。
    $ H5 I4 V* D( M- p- j
    如你所说,css外置以后这个问题消失了。。。0 s9 K" O. O, K$ L
    + _4 F% \9 R; n& i/ `. f' R
    至少我的IOS版欧路没有再发生点击后部分文字消失的问题
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

     楼主| 发表于 2014-11-25 09:17:54 | 显示全部楼层
    本帖最后由 bolome1 于 2014-11-25 09:19 编辑
    1 t# k. N& n+ [; i. A
    bt4baidu 发表于 2014-8-2 12:419 q! t, h; d( y& l# }6 \
    如你所说,css外置以后这个问题消失了。。。7 V; ~& j4 t  _$ V" h

    $ X7 f' r3 t0 V& [8 s) Z$ M1 b/ G至少我的IOS版欧路没有再发生点击后部分文字消失的问题
    . f! e3 Y/ J& U. K8 J$ }
    " }% Q& q; [, v# L+ ]0 o8 q9 w
    ' n( g! v3 G% M9 G' Z. S$ M7 t# r$ {

    " I7 g2 V$ C9 q# b, ~这个"..."和其周围的那个"方框"在查词的时候就有,点击没反应。
  • TA的每日心情
    开心
    2023-7-25 23:58
  • 签到天数: 228 天

    [LV.7]常住居民III

    发表于 2015-10-31 16:59:46 | 显示全部楼层
    能否把抓取的具体操作详细讲解一下?电脑小白搞了一天,也没有搞成功。就是下面的具体操作,详细
    ) U0 q9 v' W$ C* F- U, W( S; X3 ^  X, m( _" q
    安装python 2.7.6) h* g" }" J& Z! `) p" n* N  \/ a
    windows下要再安装python加载器,否则弹出一堆窗口很烦人
    8 m: x" i% H1 x& G+ f" ?7 `https://bitbucket.org/vinay.saji ... nloads/launcher.msi
    * t% l# k4 ?  ?1 N3 Q安装lxml 3.3.5
    % }( \/ {. A% C: P( w6 q- T1 v9 \安装BeautifulSoup 4.3.28 E* l) I8 d. ^; G1 ]' x3 }4 U# R0 \
    安装urllib3
    6 E1 q' f6 z/ k) N将wordlist.txt和以上两脚本文件放在同一目录下
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-23 00:19 , Processed in 0.027572 second(s), 26 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表