掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4655|回复: 13

[词典校勘] ODE2016 的词条排序有问题

[复制链接]

该用户从未签到

发表于 2016-6-4 01:16:35 | 显示全部楼层 |阅读模式
本帖最后由 sky66 于 2016-6-4 12:31 编辑
& V; [. V! T! O- P3 e" _
1 L' K' Z+ s7 _0 o8 J) L官网在合并词条时,  估计是用正则或是什麽工具软件合并, 但是没有考虑清楚, 结果造成下列词条有问题:6 ]/ o" d* U8 y8 f. U
" b8 c9 `4 e' L0 u) f; {+ {
Agenda 21
; [, P" m8 u- K, x+ \( O: wcarbon-13: ~9 r) O/ c7 c/ t: t
Clause 28
! Z  L' k2 P% B6 P, K7 REconomy 7
* v9 g& c* H& U1 x! BFortune 1000
; W( T+ z8 j0 W! {, m0 k* k* UFrench 754 ^! W& g3 B/ A0 r; D# L0 i( Y
omega-6
% c7 h0 d/ y: ?" q1 hpost-16# c( H9 P. t1 g) F
star 69
/ W( Y( j- S. S, G1 ?" Jtype 1' Z5 H3 W2 b( I
uranium-238" G7 G: }0 E/ o
year 2000
! N4 E. E+ W" n) b( _4 I( e7 d, d) n6 v6 `/ t7 h
数字前面的 "纯英文字词条," 原本使用率要比 "英数字词条" 来得高,
0 l  T8 ^/ s) A% c# `* N可是查找的结果却是 "英数字词条" 在前面..
! q1 L. ^& q5 w; J
/ O- i6 e; U( d& f例如: 要查"agenda", 结果却排在"Agenda 21"之後, 这个"Agenda 21"的释义等内容就会先放在"agenda"之前: Y4 q* `* f! \* z& C
http://www.oxforddictionaries.co ... ish/agenda?q=Agenda
4 D0 ?1 M6 L5 R$ n( y: }4 t* z1 a" J/ U5 E" B# A$ D
依个人浅见 "agenda" 和"Agenda 21"应该要分成两个词条, 不可合并.
% N; S# ^+ i+ D/ ~8 c& D当然也有原本就正确分开的, 如"number"和"number 6"是分开的,
2 g* d0 A5 O3 \6 ~所以查number, 不会先显示"number 6"的内容... u3 g8 J% ~  ^

! I+ f; ~9 `- _* Y9 O! r影响所及, 官网最新的Top 1000字list也是有问题的,$ M/ ~9 J" j7 ~* e. X
"Economy 7"、"post-16"怎麽可能会是 Top 1,000 most frequently used words ?!+ N+ ]. y9 O5 \) X3 Y/ i) q" Z7 y- d
http://www.oxforddictionaries.com/top1000/english
; U' K! H) w! i  m% E% N

该用户从未签到

发表于 2016-6-4 01:33:44 | 显示全部楼层
观察厉害!不过增加八万词这么大动作,这点副作用可以忽略不计了

该用户从未签到

发表于 2016-6-4 07:03:21 来自手机 | 显示全部楼层
是有这个问题 有心
  • TA的每日心情
    开心
    2022-1-22 18:08
  • 签到天数: 169 天

    [LV.7]常住居民III

    发表于 2016-6-4 10:22:40 | 显示全部楼层
    晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 21查才会显示出agenda

    该用户从未签到

     楼主| 发表于 2016-6-4 11:46:37 | 显示全部楼层
    orca 发表于 2016-6-4 10:22+ Y8 o/ B% H8 W- g2 v3 i; V+ [7 |
    晕,直接导致一个问题就是a大和b大的词典在查词时也有这个问题。比如用agenda查,是查不到的,要用agenda 2 ...

    7 Z6 _/ S- S, @  ^因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字
    4 h0 @9 b. v6 l( u7 p( U" V5 c4 l简单的方式就是要自己修改源码, 增加几个@@@LINK, 如:
    ! ]6 i. r0 [5 q- O0 jagenda. L1 Q% c0 D" ~; u6 r3 ~/ Q. M
    @@@LINK=Agenda 21
    1 ?4 j" V: R" X: M2 H: h</>1 u" S/ B3 {' a& R' \. K8 P/ }
    若要比较讲究一点, 就是自己提取Agenda 21内的部分内容, 添加一个agenda之类的新词条& J* c: H9 j2 `( `: W7 A) N4 T, L
    ; b3 @) f+ l( }: ^
    此次官网大改版, 还有一个小问题, 就是删去很多词条里, 释义及例句中的超链接跳转.: N, X' c8 ]+ D$ ^  u
    以Top 1000来举例, 如: able、begin、call、damage..等非常多的词条, 可以比对ODE2015就知道了..
    8 g, v: G0 b$ t不知道是官方的刻意为之, 还是又不小心误删了?+ o. j# B0 |  G0 p% F9 P4 |1 h
    虽然Mdict不管有没有超链接, 都还可以跳转.6 W% y: m6 ?  u
    只是觉得这麽专业的词典, 编排方式怎麽会不一致?0 _, |3 Y8 }, U: C2 M

    该用户从未签到

    发表于 2016-6-4 12:21:44 | 显示全部楼层
    sky66 发表于 2016-6-4 11:46
    0 Q2 k2 S- U# A( ]. m8 q因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字6 m& J0 a  Q8 G# @( Q9 T% A6 [5 s) c
    ...
    ( t2 Q- v* @4 }
    这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原, V* r; m* z8 Y/ G! X
    还好ODE网站维护比较积极,经常改版,这些问题以后或许陆续都会被编辑发现、修改,或者大家写邮件向网站反馈一下,说不定很快就改过来了?
    " M" \7 R; B' i( m$ I6 }词头的问题目前倒是可以自动生成几个@@@LINK出来

    该用户从未签到

     楼主| 发表于 2016-6-4 12:36:34 | 显示全部楼层
    bt4baidu 发表于 2016-6-4 12:21" ^8 A& K5 ]" L8 i2 Y9 B7 y1 U3 t
    这次网站改版确实造成一些瑕疵,不过一次增补8万多词工作量也不小,情有可原
    8 Y7 R4 G$ U) I! w还好ODE网站维护比较积极, ...

    + i/ T' p7 ~# o0 P谢谢BT大, 目前再次确认, 共找到12个字缺词头, 供您参考:
    ' Y! [9 s3 ^. A3 a1 c' u
    2 \- J6 p  o5 a7 y$ {*****
    $ ]- \- t! Y9 R1 E( p1 hAgenda 21        =>agenda. Y/ b" I: `/ n3 U* M+ q
    carbon-13        =>carbon) Z7 l" |% k  [/ T
    Clause 28        =>clause
    " x" y/ \1 c, F4 G, j& g+ kEconomy 7        =>economy. d+ E, T8 k: I% `
    Fortune 1000        =>fortune: M- R) F, A% @
    French 75        =>french
    ( I2 m  Y6 W1 x5 \) C0 C" f+ ?omega-6        =>omega6 H1 d( k) o: ~. k  B. B
    post-16        =>post. Z2 t1 Q2 k3 j4 e# P  o
    star 69        =>star
    ; e# }# K9 d+ U$ Ctype 1        =>type8 L3 i  \  c! W3 U. k/ G9 w% S
    uranium-238        =>uranium' [! |2 e) M$ `# X1 V& K3 Y. k
    year 2000        =>year/ J  j! _6 j. m4 [: l0 x- O, P

    9 R# O& N) U8 s' W* E0 k3 Z' w

    该用户从未签到

    发表于 2016-6-4 13:05:00 | 显示全部楼层
    sky66 发表于 2016-6-4 11:468 G: ?9 r9 e" b  U$ G% c
    因为a大和b大的词典也是忠於原着, 自然会有相同的问题, 所以如果用联合词典的方式, 就会查不到这几个字' l; s% y  R& w2 T
    ...
    / X! l  G& c6 N9 d, E5 t1 W9 {
    请教一个问题:ODE释义里面的超链接的‘标准’是什么?! y- J6 p  V) G8 h: @5 V, [
    以下图为例,+ `9 ~, z$ q0 K
    spar是超链接,为何ship,boat不是?  h7 q8 c* I6 R  [0 t& r8 `

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-6-4 18:58:48 | 显示全部楼层
    belleyeah 发表于 2016-6-4 13:05
    / {2 V% U! j/ q% C9 z. v请教一个问题:ODE释义里面的超链接的‘标准’是什么?9 [4 c$ T6 o1 B( y* c6 G- g& y
    以下图为例,
    + z- v  g5 Y9 h2 w( Q8 }5 t/ xspar是超链接,为何ship,boat不 ...
    & {' G  {, {6 j6 G3 n9 q: @
    这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的8 D1 |+ n( |$ T) n' `3 R
    上一版制作的时候都给删掉了,这次因为Goldendict支持锚跳转,可以精确定位到义项,所以全部予以保留% c3 S- {) |* b. l, R7 N0 P
    不过也有些瑕疵,比如can't,超链接指向的词头居然是ca,显然不对" R1 F' @) K; P$ Z2 b- t# t
    但是有些情况又是对的,比如Cassius Clay,超链接指向的词头是Muhammad Ali(看CNN新闻,此人刚刚驾鹤西去。。。). p  f0 ?' C) D4 J6 j
    情况比较复杂,没法统一改
  • TA的每日心情
    开心
    2022-1-22 18:08
  • 签到天数: 169 天

    [LV.7]常住居民III

    发表于 2016-6-4 22:43:13 | 显示全部楼层
    bt4baidu 发表于 2016-6-4 18:58
    , c" t. u) {) H2 P5 u$ o这个超链接,感觉是程序自动生成的,估计网站内部有个词频表啥的
      T/ `' \$ |2 C! h" H上一版制作的时候都给删掉了,这次因为 ...

    9 L7 x6 ]% W( D; S% ^2 hb大,目前超链接地址里同时包括'号、#号和数字的,好像都跳转不过去。  P6 y& S! o/ E2 c
    % y* s5 m8 s9 J; P! i( o; J
    比如,PRC词条下,"People’s Republic of China"底下的链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳到People’s Republic of China词条。
    / k5 L5 I- i8 v3 W2 e* ?& J5 q而China词条下,有两个People’s Republic of China链接,第一个的链接是"entry://People's Republic of China",可以跳到对应词条;第二个链接是"entry://People's Republic of China#People's-Republic-of-China__2",没法跳转。( i7 ?) F% s0 R# _3 {

    ) L% v; ~4 N3 g6 Z/ k  j% x  y! y% p& h2 I

    * U+ c& C! x  Q4 q! U; n
    9 |' l1 w- V7 U! n另外比如annoy词条,第一个义项的同义词展开后,有个短语"get on someone's nerves",它的链接是"entry://get on someone's nerves#nerve__21",也是没法跳转。去年发布的那个版本就可以跳转,因为链接里没有这种#号加数字的组合。
    * U% F1 [: [" Z! Y# m  H0 A
    2 n& J- J% S; N8 O1 c3 r
    3 H0 e- R4 ^9 l3 K( x4 b7 M我用<a href="entry://[^>]+'[^>]+#[^>]+\d">搜了一下,有1000多条,随机抽了几个试了下都没法跳转。
  • TA的每日心情
    开心
    2022-1-22 18:08
  • 签到天数: 169 天

    [LV.7]常住居民III

    发表于 2016-6-5 00:19:08 | 显示全部楼层
    觉得这问题像是GoldenDict的bug或是局限性。一般链接在GD里识别出来后都有个gdanchor***这样一串字符,但是一碰上'号就抓瞎了。图还是annoy第一个义项的同义词,标红的都没有识别出gdanchor***那串字符,都跳不了。
    # K# ^/ x& W1 r; }* `, I

    该用户从未签到

     楼主| 发表于 2016-6-5 00:27:30 | 显示全部楼层
    修改前/ [6 }& o# _% Y2 s# p
    People's...=>MDict 可跳转, GoldenDict 不行
    8 |! t& R+ U3 ^( u3 F. _8 T4 W* C( t7 W3 {! U& O0 D8 |4 d7 u( P6 q
    修改後  L8 \$ `4 G% w# w$ j
    People%27s...=>MDict 可跳转, GoldenDict 也可跳转
    - [. X% m( K" D( {7 _: i4 L
    0 R; }. R& a8 m; o所以将 ' 改成 %27 可以改善GoldenDict的问题, 但不知对深蓝等其他软件有无影响...

    该用户从未签到

    发表于 2016-6-5 09:38:03 | 显示全部楼层
    sky66 发表于 2016-6-5 00:272 z+ K/ F1 l1 I& c
    修改前
    . w8 X, ?) G( U& h# E( kPeople's...=>MDict 可跳转, GoldenDict 不行
    ' i4 V! B" g! E( u$ q
    这个问题严格来说是Goldendict的bug,虽然可以用' -> %27回避,因为‘不算非法字符' i6 @4 }1 R4 W7 ?: j  {1 w8 q0 r0 i
    URL里含有%XX也是符合标准的,不会造成副作用
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-29 16:42 , Processed in 0.023164 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表