掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6885|回复: 23

[索引] [已完成] 简繁转换

[复制链接]

该用户从未签到

发表于 2015-10-19 23:47:34 | 显示全部楼层 |阅读模式
本帖最后由 cracode 于 2015-10-27 13:15 编辑
" w, N0 @! d/ i- j4 b8 H7 F, L/ f$ P* R* l4 C
先看下效果:
; q' A0 C9 Z* ^! P7 c* I5 Y  G) n4 C8 V, ]4 x( l* r

7 {  v$ |" ~- E$ {- \上图是在 Linux 系统,但 Windows 和 OS X 上需要包含第三方依赖(OpenCC)进 GoldenDict,我没有这些环境来测试。
+ T; n8 J" g4 K3 n2 f( l已提交了PR,欢迎有精力的朋友跟进,帮忙添加 Windows 和 OS X 支持,和测试更多的字典。
; b. ~7 ?# x, L
7 N# [" s0 Q2 v" `& T
2015.10.27; w% j, i+ x4 v
功能已合并进代码库,已添加Windows支持,不过作者尚未发布Early Access Builds.3 k9 T/ N* W- I& ^6 O) |" x

该用户从未签到

发表于 2015-10-20 00:18:48 | 显示全部楼层
感谢楼主的努力, 我可以协助测试Windows 的部分~$ X( \1 D1 c( B) R+ ?% F# f

, D- R& x9 k7 s* J* S; m* b" K, |如有需要, 我自己有整理超过上千笔简转繁的资料..! g7 J! F. E/ X9 Q7 d
类似opencc里”TWPhrasesName.txt”# H  M' t1 ^* [

该用户从未签到

 楼主| 发表于 2015-10-20 00:27:23 | 显示全部楼层
sky66 发表于 2015-10-20 00:18
+ N+ N4 k8 i. d$ q" S感谢楼主的努力, 我可以协助测试Windows 的部分~3 t2 u% N0 [# ?4 \& r6 w3 _* V
% r) v7 W0 _: \9 R" [! r! ?
如有需要, 我自己有整理超过上千笔简转繁的资料..

& I- p! l! o& H8 ^7 _谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上编译使用。

该用户从未签到

发表于 2015-10-20 01:10:23 | 显示全部楼层
cracode 发表于 2015-10-20 00:27
# O/ [3 N! R( J: F  z7 h谢谢,不过需要先添加 OpenCC 的 DLL 及 data、config 数据进 GoldenDict 代码库,这样才能在 Windows 上 ...

' F3 r8 e; h+ ?7 f这就抱歉了, 对于编程不太了解, $ o7 M* j- v6 z# \6 B: S( E& j
我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
: D: z( U9 _0 s( n$ ~: g9 Z+ q7 o9 [1 J: r* ]+ w
在网站有看到您写的源码, 如果后续有机会的话,- p1 p; t; P" Y6 j9 c: ?4 d3 M
建议能将简转繁, Simplified to traditional Chinese conversion
9 B( Q! ], L5 |7 |( e9 L. S改为TW / HK两组, s2tw.json & s2hk.json
% s6 [; _' i/ Z1 V+ z因为原始的 s2t.json 参数我有试用过, 会转出一些罕用的繁体字, 5 @$ }& ~5 q$ z) S
有些字我想一般人(包含我)都看不懂..如: 糉 覈 竈5 f, d2 w+ ~7 e; n; c- }, c' M& r

该用户从未签到

发表于 2015-10-20 09:40:38 | 显示全部楼层
sky66 发表于 2015-10-20 01:10# L7 P1 R0 ?6 m, H/ ~
这就抱歉了, 对于编程不太了解,
; U9 q1 j# @6 e6 k2 C. n# B我只能协助测试给予建议, 顶多照抄然后进行小幅度的修改..
) j" i6 R1 e$ R; o) J
这些繁体一点都不罕用啊,
' q  x& }0 l( N9 z- K
1 d; Y( m! |/ B8 s糉,粽子的粽# ?& k1 u# d$ ~  g
覈,考核的核
; O; Q) e) C" q. P竈,灶台的灶0 i6 B$ r6 y0 e% r2 ^2 {

3 o4 y2 x9 U$ z  h) m4 ~我觉得利用OpenCC 挺好的,不过没必要弄那么多模式,它的简体转台湾习惯繁体(不转换语词)是我最常用的。其他的真心可有可无。( ]  K" f8 o( q$ J; _, F; R
. t( y  H) _6 l. D+ J1 ]% C
像鼠标-滑鼠这样的对应,我觉得还不如留给《两岸词典》这样的辞书解决,不要混在繁简转换里,会干扰,而且效果也没有《两岸词典》好。8 S5 {0 K7 u) i# }" F( O/ c4 @
, b! \( p/ ^2 j, d5 g
现在mdict 下面已经有不少大型词典了,繁简转换带来方便的同时,也会对结果产生干扰。所以它的开关最好明显一点,别藏在选项里面,最好能快速切换。

该用户从未签到

发表于 2015-10-20 09:43:16 | 显示全部楼层
或者做成类似“拼写检查”一样的外挂,搜索简体/繁体的时候提示可能的对应,这样即便不准确也没关系,也不会干扰词典检索结果
, n- Q9 s- ?% j& @, _5 \" k6 ?* @3 J9 H! |0 T( O+ E
  M: M( s$ j4 r3 u) t
如果全文搜索也能繁简同时匹配就更好了

该用户从未签到

发表于 2015-10-20 09:54:14 | 显示全部楼层
本帖最后由 sky66 于 2015-10-20 10:03 编辑 2 |9 A/ O, a/ P- {# X8 I' t
klwo2 发表于 2015-10-20 09:40
/ O) t* ~4 f! q0 K这些繁体一点都不罕用啊,
1 n. t+ `" k9 j- |; r8 V, A6 t9 |' ?6 S9 z7 R7 I
糉,粽子的粽

. t, P* a% H. t: B5 s3 |- E; k# b% H0 E, Q. D8 l
"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.* x6 M6 N8 j' U
. A5 `7 K/ C, m$ \
至於Opencc的转换语词”s2twp.json”, 的确不就不推荐了, 经测试, 会有一些奇怪的转换..
- |% W* N+ e! p* r% F, M  B/ N% \7 `4 D1 l1 B: p. m7 L- S9 P
***************
; I/ J* J% {6 W0 O
3 O; C7 Q" l1 J3 y1 t在此顺便介绍一下, 我在进行简繁转换时, 有部分会参考采用的google词频:
# ~1 q) U8 t7 ]9 I1 ^+ s- q
4 Z2 U" l7 s' ~  ~0 b" \# i" r因为翻译一般是”从众”,  但从众的确有时会有误译, 这时就要看是否要拨乱反正, 还是就积非成是, 约定俗成..$ _4 G! {9 L0 b" m8 ?( u' E

' y1 I8 |6 k3 \" }* T1 d* ]8 M"粽子" site:tw約有 574,000 項結果
, Y% y! Z& n4 t1 q" d' Q"糉子" site:tw約有 2,540 項結果
# S8 _0 T/ a* \: M1 c' q6 V
6 e0 @3 x5 a4 ["考核" site:tw約有 681,000 項結果3 _) x9 j# K0 m1 s1 C4 G- D+ ~: v
"考覈" site:tw約有 7,560 項結果
( t7 R2 `% @* x4 n( `1 o
/ `# C9 G4 {# Q( S, r" s) A: m) j"灶" site:tw約有 434,000 項結果
# H) f; D9 L8 V6 `, ]# E+ y"竈" site:tw約有 24,800 項結果( ?$ Y+ N+ ~, Z' a( Y

该用户从未签到

 楼主| 发表于 2015-10-20 10:26:48 | 显示全部楼层
本帖最后由 cracode 于 2015-10-20 10:28 编辑
9 {' R& A2 p+ @5 Q$ ~3 J+ _5 v$ ~4 G4 k5 |! k% h
我觉得简繁转换还是只简单地转换字吧,软件 - 软体 这种区分,还是交给词典,毕竟 GD 对英语也没有自动转换不同的拼写,比如 color - colour。( |& T4 O1 ?0 _  V6 \/ D
对于香港和台湾用字不同的情况,我会加上对多个alternative的支持。
8 s2 h- f% K! X+ N
: k( Y/ k* w$ W" [. K上两张图:6 B$ @& e* P2 H8 Q# k5 X' `6 N
8 ^1 W( @" c( Y) d
有选项可以控制是否开启。
+ R$ g  R& {3 }' ?* f
! [. g, L( h: s& O* T1 t/ F- h/ O5 y0 k
启用后,可以在 dictionary pane 随时点击这两个字典图标来开关。
% k1 k/ T0 e! G/ U/ C- y3 O0 K  c/ o, h' o! h7 G1 V$ s
啊,这里Icon好像不合适,应该换掉。

该用户从未签到

发表于 2015-10-20 11:30:06 | 显示全部楼层
sky66 发表于 2015-10-20 09:54
" j* j. e- s6 ^  q, ~- q"简体转台湾习惯繁体(不转换语词)"  就是"s2tw.json",   也是我主要在用的.8 l! A, Z7 A' i
6 L" A' t- y3 d+ w' G
至於Opencc的转换语词 ...
: w5 H  {. i" W$ m
除了google,还有别的资源:
/ \$ F& D3 [  s( W5 x7 ~7 a. H
  o- e# ?- [- L0 z! Uhttp://cloudtranslation.cc/corpus_tc.htm
9 T; Y- U3 m& v3 B7 z+ N, e
" p) p2 T6 J! j( Rhttps://www.moedict.tw/考覈# w  C- u: s8 _4 U8 e
- o% x- g! D* F0 P3 ]
比如国语辞典就有考覈
' h0 k% g# I9 I6 x' j* n- x. S' Z
4 W. [7 n4 x. [& x网上“考核”更多有可能只是新注音输入法考核在前面而已。辞典都说考覈没错,港台不像内地,不通用的“正确”词语词典有,放心用着就是了。

该用户从未签到

 楼主| 发表于 2015-10-20 11:56:48 | 显示全部楼层
港台繁体区分,已经加上了。

该用户从未签到

发表于 2015-10-20 12:18:57 | 显示全部楼层
cracode 发表于 2015-10-20 11:56
& q1 ]' U  m0 D3 @2 r  H8 U; ?港台繁体区分,已经加上了。

$ n, W! U3 F; b+ \' \/ r$ a) h太好了, 谢谢楼主..
+ s) b/ d5 f9 b( B2 B只是不知道如何才能有windows 版本…
! ]0 N& `* ?9 v; q! |1 G1 H

该用户从未签到

发表于 2015-10-21 08:44:14 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-21 08:46 编辑
- C% E" U1 u' D4 t6 h8 ~/ p! R! M4 M( d
我又想起了一个新问题,不知道能不能实现。
/ v. T2 ]( ]8 K, M& o
0 l  I8 X1 {! E6 E% O; g0 C可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候就是转换文本的,而查字典有的时候只要看一个字的解释。3 l+ _# w0 Z. S3 O8 A& Y
- h9 l2 ~$ K1 a# |
在现有的模式下,“转换繁到简”会让“隻”的搜索结果里出现“只”,简化字字典还好说,反正简体合并了,汉语大字典会因此两个字都出来,平添疑惑;“转换简到繁”会让“听”的搜索结果里面出现“聽”,原本的古字听yin3和“聽”混在一起了。
8 U; w! D; p$ W% ]9 P- V! }: m) P# [3 a6 c* L/ Y8 Q6 ?7 _
而转换词语不受影响,形单影只、听力这样的词语不管哪种形式都不会造成太大困难。
- V0 R1 X0 }+ j8 J( t1 q" Z' i& U$ O) H7 M( M. V
当然了不同的人需求不同,有的人可能就需要简繁一起出来,但我想mdict 平台下现在这么多原生繁体的字典,有我刚说的这种“准确对应,不要乱掉”的需求的人也是有的。
! {- D2 C( I3 o2 {+ y7 ^/ B) g
/ [$ g; |4 a9 G+ O+ Z* [) s另外,tsiank 制作的汉语大字典,自带异体罗列,在下制作的两岸词典繁简对照(https://www.pdawiki.com/forum/fo ... id=13879&extra=),也能实现通用字单字繁简快速跳转,可以不必依赖OpenCC来做

该用户从未签到

发表于 2015-10-27 13:38:48 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 14:04 编辑
& ]! N! S6 {7 f+ w
cracode 发表于 2015-10-27 13:17
2 l( f- L. R" K& {已完成

. b; }, P9 Y- S7 |6 M% w1 T2 S. P3 k. l$ n' I4 h* p* [) T# ^
多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
2 X# k1 h# ?/ L0 p9 ~, D9 E7 G) m% f. c
我在想,或者换一个思路,能不能实现“对特定词典不应用繁简转换”?

该用户从未签到

发表于 2015-10-27 14:16:25 | 显示全部楼层
cracode 发表于 2015-10-27 13:17
+ @  G4 D. x, D) |7 f已完成

/ E* _( [; L% b* I2 D$ I真是太好了, 就等Early Access Builds了! 再次感谢楼主的辛劳.

该用户从未签到

 楼主| 发表于 2015-10-27 14:21:19 | 显示全部楼层
本帖最后由 cracode 于 2015-10-27 14:32 编辑
9 ]" [9 }; ^6 R  j1 S. S8 n
klwo2 发表于 2015-10-21 08:444 \9 p! o7 V+ @' ^- F% v' |2 G  f4 k
我又想起了一个新问题,不知道能不能实现。" n: \! a3 B9 v! B/ p  a6 A
' S6 U7 n3 [  K3 ^( |! J
可以考虑添加“只转换词语,不转换单字”,OpenCC设计的时候 ...
4 R; H1 b# ^+ v- y
5 b9 }, r# e  i* c! T% w, y" \  R
简繁转换非一一对应是语言本身的complexity,其他语言也有不规则变形等程序不方便handle的问题。异体字等的区分,词典内容可以解决。
( z3 k* L( w3 v% {8 Z7 p) r! p  a* D
当然这只是我个人的观点,有不同意见可以进一步改进,or just maintain your own fork.

该用户从未签到

 楼主| 发表于 2015-10-27 14:22:36 | 显示全部楼层
klwo2 发表于 2015-10-27 13:38
1 ]1 B0 H% \  T. [多谢!等Early Access Builds出来就能用了,不过我还是好奇,我在12楼说的有办法实现嘛?
" q+ ^( d! r, Z/ C9 e
* A, ]1 y; ^# n; c我在想, ...
; H- w4 z( J% n* M( x' q
分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

该用户从未签到

发表于 2015-10-27 15:25:13 | 显示全部楼层
本帖最后由 klwo2 于 2015-10-27 15:28 编辑 ( R8 y2 ]. A% ?( z
cracode 发表于 2015-10-27 14:22
" Q! y7 z/ V2 J5 N5 i$ G分组。打开简繁转换会增加几个虚拟的词典,放到哪个分组,哪个组就会自动转换。

9 b2 T! o3 ^9 B4 s# F9 w
+ |7 ]. r. [% t0 J4 F" Z. R- I4 F  h哈!我明白了。原先没怎么用过transliteration,没经验。这下明白啦2 s' V; l4 J; l- n9 L6 i

7 r3 C( @* X. b9 B( F4 j! r% z再次感谢!

该用户从未签到

发表于 2015-10-27 16:50:30 | 显示全部楼层
楼主有Goldendict的编译环境,不妨试试在加载词典的时候替换一下css里的url('...')路径,这样就可以用css动态加载mdd里的字体文件和图片了' s- w+ `8 V7 @1 v1 ^. K
@font-face { font-family: 'MyFont'; src: url('myfont.ttf'); 。。。
  C  \3 k  G6 @. a以及
( p  Z* O9 d, w3 y' u; nbackground-image: url(foo.gif);
- N& d$ G& x9 Y* b
) H" `- w- r% [8 u' A' X/ o在路径前面拼上Goldendict的那一串随机字符应该就可以了
/ f5 v" j9 S5 k7 @foo.gif => bres://49dc2f7b70d4b3ea5f2df26d47cb379b/foo.gif  `1 G1 Y  W3 k

! o" e+ U' w5 \5 M  Y5 J可以参考https://github.com/goldendict/goldendict/blob/master/mdx.cc里替换link等的方法来实现

点评

我抽空试试看  发表于 2015-10-27 17:03

该用户从未签到

发表于 2015-10-28 14:04:35 | 显示全部楼层
啥时候能发出来啊
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-6 08:28:18 | 显示全部楼层
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬詞典,但是沒有效果。

    该用户从未签到

    发表于 2016-7-6 15:35:32 | 显示全部楼层
    fthukp 发表于 2016-7-6 08:28# B6 F* t9 T1 F; j: t0 J, b$ z
    我下了windows最新的goldendict 1.5.0-RC2-21-gdb6f369,將要簡繁轉換的字典放在同一組裡也加了簡轉繁虛擬 ...

    " A9 k. c: G0 R這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    ( ^7 @) _2 O# G, H) C  u/ j也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入簡體也可以查到繁體詞頭的內容../ D5 K9 e+ D0 M- Y8 U+ C
    無須另外製作一個簡繁索引的mdx.
    / T! `( U* H6 O; p3 T! J) n' ]
  • TA的每日心情
    开心
    2021-1-27 11:36
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2016-7-7 13:48:47 | 显示全部楼层
    sky66 发表于 2016-7-6 15:35  I$ N$ k% _/ o/ _7 L: A. A% K4 d
    這個功能目前 GD 只有在詞頭有轉換效果, 內文還不能轉換..
    * J( P/ b- T9 v  Z7 `9 T也就是輸入繁體詞頭可以找簡體詞頭, 反之輸入 ...

    / d5 g4 S1 ]$ s. \6 V0 v8 @多謝解答
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-6 00:01 , Processed in 0.059051 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表