掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1080|回复: 2

[教程] CC-CEDICT制作最好保留繁体数据

[复制链接]

该用户从未签到

发表于 2017-9-2 14:32:30 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2017-9-2 14:39 编辑
( G  o: ]) f( I9 g+ X) D, d/ F) e. H% `: ^% f  C# L+ M) I
CC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。' y! B! G1 A! |& b$ V" s  y7 C
# {2 S& C2 b% h/ @* h0 V, w
这导致了字头关系十分混乱,
/ z; t) _0 h4 P4 f
, \4 M- a: D# Y# M3 O! F, c; I# H- K  U3 `: @' M
5 j. m- t, N# B; ^% ~  n
正常的关系应该如下:! F: a- T2 ^. N# K4 ~1 S' E
3 v  a5 V8 y' [, j' b9 ?* i# C

8 y8 k& c/ I7 }& Q9 E+ P' C; o- @0 ^$ ]' d8 |4 |# I
而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,! g: J* g% j  q' g8 M' [$ M
0 I9 T1 [. [+ ]. Z! O* R
0 }( _7 l; R' Y( _
( O, {/ V5 I3 A) Y* }2 I
但是,阉割版就完全见不到这里面的讲究了。
4 G. V$ u1 z5 o" F6 }
3 c. |3 w# V# y$ ]6 f) M+ @9 f- i8 E. c9 Y* `
3 r# I6 V# F# c' d$ V& c
所以提醒大家,使用时要多加留意。
( d3 \. `. T2 z9 u) j/ B: s% |$ G6 D$ O" a% C

, O4 b% S4 b5 N% G+ a4 h* n+ p

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2017-9-2 15:35:22 | 显示全部楼层
    好建议, 学习python 改进中
  • TA的每日心情
    郁闷
    2017-10-18 00:48
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2017-9-24 18:33:09 | 显示全部楼层
    最好還是保留原汁原味的字典數據製作...。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-27 17:43 , Processed in 0.020497 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表