掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1058|回复: 2

[教程] CC-CEDICT制作最好保留繁体数据

[复制链接]

该用户从未签到

发表于 2017-9-2 14:32:30 | 显示全部楼层 |阅读模式
本帖最后由 eeshu 于 2017-9-2 14:39 编辑
* X& b7 q- Y- M! T% {0 L9 ?! Y# @' R0 j
CC-CEDICT是一部非常不错的开放式汉英词典,可惜论坛大部分的版本都是沿用imfirefly的工具将繁体数据简单粗暴地转成简体,这样做不但导致繁体字无法检索,而且会产生一些匪夷所思的后果,比如下面截图中的“X是X的异体”的滑稽现象就是机器转换造成的。
* U8 Z  k3 T" J. h7 q3 X. s. _) K; F7 m1 P
这导致了字头关系十分混乱,
/ j1 Q. P1 r2 u; ?# d4 k
, }  x( i9 ^+ o# Y+ z, f7 E1 F. m$ G- L% W- {. o
) l% _/ Z2 ?, e- k
正常的关系应该如下:
* N' v) @7 j: g5 l  Y1 {+ D; s8 K  k) y# h$ B9 Y" |/ G- _+ f

$ S+ y2 Y/ p9 x- S, h) ?: F
! G& F2 }# [" ^. T4 A而且,有些繁体字只有部分义项有对应的简化字,机械转换会产生误导。比如表示皇后的“后”与表示方向的“后”,前者的繁体就是“后”,而后者的繁体则是“後”。这样的情况,原数据也是可以看得清清楚楚的,) H: b9 E7 y+ d1 t1 g; p: m! Y

0 `3 F  m: Z4 L4 V0 t$ T0 Y0 p# t; F2 a% g% J6 x
! r5 [1 g, E/ R% t+ Q; ]( O5 T4 g
但是,阉割版就完全见不到这里面的讲究了。; Q1 B; Y  h: \% @% S1 z
. [6 n9 `2 i; ^* j0 w

8 G1 k/ x" F% ^" P  r8 c9 x& D
; @( w0 X; m: F, v3 O! o所以提醒大家,使用时要多加留意。
8 O8 J. w3 E, @6 W3 U* }! D  n9 K% {0 g$ S2 M2 v1 J4 M7 M3 n+ Q
7 K  l9 D% Q$ o$ J& q

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x
  • TA的每日心情

    2019-9-20 08:37
  • 签到天数: 214 天

    [LV.7]常住居民III

    发表于 2017-9-2 15:35:22 | 显示全部楼层
    好建议, 学习python 改进中
  • TA的每日心情
    郁闷
    2017-10-18 00:48
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2017-9-24 18:33:09 | 显示全部楼层
    最好還是保留原汁原味的字典數據製作...。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-7 00:21 , Processed in 0.021202 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表