掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6886|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑
) T+ o% y+ s, d/ v3 w9 x" ~& _6 ^: t# Z& B) M' m
先看下效果:/ h/ a: b* S: M2 Y3 E
) U& V/ }& {- M3 ^# ~3 d: _
# X1 r7 h" @# E5 H" W5 T  w- }
上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。! L2 W) V" B- V
已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。
4 E# c2 O& X4 |
7 f0 m, j/ R2 a5 E5 U
2015.10.27
' E4 u3 u& W# i0 d) q功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.
' z) O8 s3 _; N9 ^" G2 F

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~
: }2 a% @6 i; e, ~* t8 r* Z- u0 x+ Z4 m7 k: S
如有需要, 我自己有整理超过上千笔简转繁的资料..3 T/ {2 W& P) L# L4 [
类似opencc里”TWPhrasesName.txt”0 K! [' {- h- S0 }* d3 q; j

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:18
; |( r& n/ a( w5 F+ A) ^! M感谢楼主的努力, 我可以协助测试Windows 的部分~: E6 P3 I6 e" Y6 P' i6 J# n. ]: ?

1 P" i. R- X# e) L! B6 i& y如有需要, 我自己有整理超过上千笔简转繁的资料..
) n% d. e2 h* E& R
谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27
7 k1 F0 M: q- F9 n8 v' T& y谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...
& R& Q8 k0 s: O9 g7 k; r+ @5 [4 r
这就抱歉了, 对于编程不太了解,
/ i) ]: A* Q2 G' t我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..4 x' ]9 l* E5 x0 i( d
6 A5 {3 V8 c. }. M
在网站有看到您写的源码, 如果后续有机会的话,% l0 V: ~. Q: T  C$ f" M2 g
建议能将简转繁, Simplified to traditional Chinese conversion
8 J1 O/ G7 q* ?* O改为TW / HK两组, s2tw.json & s2hk.json; b' N" c1 n' F- l
因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字,
" M$ i8 _  V8 Q有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈3 M3 ]4 G5 }; ~% H: y2 w  _

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10; [! J, f# s3 J# v  {& @
这就抱歉了, 对于编程不太了解,
  O; `6 J' W! F/ e" {我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
5 C; K  T" c! [, V+ L
这些繁体一点都不罕用啊,9 m/ s, q: P9 U8 J( ]3 T

5 u, U& I" Z  i- W: u. ?1 b糉,粽子的粽$ ~- N- M7 p+ f( M/ K7 ?
覈,考核的核4 E' c3 V6 s1 E8 |; [' X
竈,灶台的灶
3 }9 P; a( D9 S6 o1 E6 h7 S% ]. p9 v9 F& @8 B- v8 W
我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。$ [# {+ c- I4 y$ V8 u
2 ~" u/ b4 A, ^; D( R
像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。! N( O* o; o; V- n6 L
) [6 I( L( L3 O
现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果
2 Y( S. w% @0 p6 M# S" g6 s$ @' w& s1 f
" |" T6 r8 f( P6 l, I, a7 e
如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑
* S( P! ?0 l7 _
klwo2 发表于 2015-10-20 09:40, K, ^" w' w, T( k& P
这些繁体一点都不罕用啊,3 V. b2 s8 K1 X2 c) E( O

8 w: \9 X  g7 e$ D( k. p糉,粽子的粽

) x9 x5 z2 r) V  L! d4 q+ f  O, j; M$ ~1 O
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
/ _# c2 J5 V- R7 @* O6 t
0 F: V3 C1 c+ U1 O至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..
; L. K1 j0 T' f( F" S+ |* o5 _8 z9 _$ m. H; y$ i: x- L6 L+ u
***************
" T) x. ?3 f5 Z" J; E  o) ]) [
1 m7 i/ Q, i2 n9 I# I- H/ |在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频:
+ G/ u7 n$ i# P: |: z/ f
3 f8 M& F5 Z. ~2 X因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成..
- x- s% X6 R6 A7 I0 E+ Y. H7 _; S* g. K% A3 b
"粽子" site:tw約有 574,000 項結果 6 q/ r1 W+ R# P' E" F0 U3 q( j( h2 [% k
"糉子" site:tw約有 2,540 項結果 , U& B: a0 n2 L2 T' w' N) v/ x$ I
/ i& d" d& m- E! ?! @: R; z' j. j
"考核" site:tw約有 681,000 項結果$ g5 I5 t  Y. J+ q# I, B2 W' h
"考覈" site:tw約有 7,560 項結果% m# t( r4 {  G* S

( @- }6 C" b3 u  Q# Q. ^"灶" site:tw約有 434,000 項結果
0 }* J7 A$ m) H2 R/ m"竈" site:tw約有 24,800 項結果* c* V- C! F. T- e6 u

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑
3 y* L9 V3 _9 ]$ ]
( ]4 y% J9 e- N1 y$ R, T我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。$ L( h! ?6 T* C
对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。& U1 m& u' p; V9 m5 K

2 u; S% W( d4 W上两张图:
& s# i1 L6 P" T) V0 I* o/ V& Q$ }9 p5 |2 y! {4 F  {( ~
有选项可以控制是否开启。
* e6 A" N2 J+ c$ A
1 i" s2 b8 z; X* Q6 d* I! g3 f
  y( M: L; M- f4 J8 d1 g6 ?+ v0 C) d% ]启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。
* J4 y; i/ N  c) x* @9 L9 T- M/ L( q+ i
3 P) d. K# V+ R! l) n: X* C啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:544 @7 ?3 f$ K* s% b% }! Y  r2 U
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.
, u8 d: |; @6 G% x2 D$ u9 B. B3 ?
! R/ H( C; |4 L. m/ q: _% j5 }至於Opencc的转换语词 ...
3 P! _8 Z7 s" |% q! f7 s
除了google,还有别的资源:
# V9 T9 N% \, r9 l: R" `
, S; d5 M' z6 s8 w) Whttp://cloudtranslation.cc/corpus_tc.htm* [( S9 V% |; d& Z" r: Y+ m

" E9 F0 p& ~$ C$ N9 Shttps://www.moedict.tw/考覈8 W6 C* j4 b$ @9 `3 Y  Y& h: @

. C  S! [4 {1 y" l6 K6 F' ^" w3 \比如国语辞典就有考覈
4 \' y3 C1 ~9 X7 V& z
4 f! c! f2 |% G( G网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:56
! D: ~5 e0 x& [0 `9 d港台繁体区分,已经加上了。
$ Q4 {6 k& {, E3 y
太好了, 谢谢楼主..
4 W& ]1 p9 c9 f1 s( O: n% ~. o只是不知道如何才能有windows 版本…
  r* h- {2 G- v* Z3 {: p, G/ h  o

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑
& C' ^, |- s3 w/ q7 S. g% s
! q9 P3 V6 p0 P1 W我又想起了一个新问题,不知道能不能实现。& B1 r9 {% o! A2 T: g1 @9 D9 i/ C

# p; s6 ?8 M1 {; x1 R+ D8 D6 ~可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。
# q* I+ I2 G* {, A5 I& G" I( W. U" Q0 F, I; X- ]
在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。
7 e0 y! T1 @# y# m" @7 j! U, ~2 V
) h1 H( G+ O- j3 A$ ~* g( E, j而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。
$ M0 Y2 ?5 U$ K9 \& B& k2 k% L; b& ^0 o
当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。2 }3 E' w% y9 Q

" ?$ X4 W2 Y2 Y: p" x另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑
. J3 X: f5 J# i  y7 i) P/ O- J) o
cracode 发表于 2015-10-27 13:17
1 E* q; W2 I, h; p9 P& c: ]! x已完成

  s, p, W6 a; ^
5 X# t% g" [1 A1 i& m多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
3 H5 R2 E+ r7 f9 S0 U3 Q8 s' S2 U+ F
我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
2 E- r  J( }, U/ m  y已完成

6 t7 Q3 r  ]1 x/ J$ I: `真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑
) U0 S9 |9 {& z" T/ ?, M
klwo2 发表于 2015-10-21 08:440 r. R( f$ ?/ b0 N) r7 n  _
我又想起了一个新问题,不知道能不能实现。
1 I  S, e& c2 t$ i, v+ B" y' d% X8 C; A2 B
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...

6 L0 j( V, I. @; x, d- a0 M+ F4 ?
简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。
$ `# R6 |6 P5 O& m/ p% N2 j! }+ W2 Z! g
当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:384 @7 k1 S: }) E( T3 ?" @" }
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?; O% Z! B3 X% i+ \; a8 ]( n0 g+ g
2 S" T, h0 `- Q) j
我在想, ...

+ ?4 J4 F1 s+ ?分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑 7 l0 r& P* h  s% Y
cracode 发表于 2015-10-27 14:22* U  i+ B; M: Y! n/ p) Y
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

0 ~0 T6 F; p  a! O. W8 q+ E. E, E5 t' ]( v
哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦
3 P  R2 }3 \  i+ [5 `# l. s. l; v% H# h
再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了$ e. x. H+ O( i' H5 }
@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。3 G% K8 R- ^3 A* z5 ^4 u! X
以及
- g1 k7 L0 q( M% J# i9 Cbackground-image: url(foo.gif);" c* a3 t3 P  Y8 b

5 X# V2 C  W/ f在路径前面拼上Goldendict的那一串随机字符应该就可以了/ J- o7 }. f$ c
foo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif
( A% ^! }. |( O% z; ^3 l) S
6 @/ u0 j$ \3 e( t6 }8 Q$ h可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:28
    + \2 h( D- X/ U3 }+ M3 a我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...
    7 J) F, n" L+ |3 G% `
    這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..7 H# Q& B! B) b* D9 {
    也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容..; g  P, [" T+ a, u+ ^) q
    無須另外製作一個簡繁索引的mdx.
      o8 F/ `) ^  U5 r' G0 p: g. P2 W* ~
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35; F! ~, K6 q( O, a
    這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    & f* E) L0 C+ H6 V5 R& J' ]- p也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...
    $ d" [5 x) O0 X
    多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-6 02:22 , Processed in 0.050814 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表