掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4031|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 9 p0 o  b* T2 I6 ~5 F( k+ L, p

3 g0 Q" [( I4 U! R$ P) _对于epwing的字条,EBDic会根据字典作分析。0 d% O* G- l- F
3 N  s  P) ~2 M4 N  ~
) [# o2 {0 a+ ?5 U& q8 }6 ]
例如:# `, M0 i4 j! B  K) ?8 m. J
小学館「中日/日中辞典」統合版 :
. b( |5 y! [' p+ l9 [, Lはな【花・華】2 V7 z, T% U* v9 q( q& @

$ f1 m. Q0 q) H. r7 B: l- L3 k* [  u広辞苑第六版:
! M2 X# I# G% i% k0 h+ Rはな【花・華】8 R8 k. J, Y$ i6 x% Q& }1 J% z
+ r/ o; t0 V  A- S  }$ x5 p/ p
三省堂 スーパー大辞林 :2 s7 F2 T( L( W4 L8 Z
はな【花・華】
8 A, `6 r* o6 z# U$ j9 l$ l6 d, z% }- U6 y+ `' O; x
新明解国語辞典 第五版:
7 E- H4 a9 X% ^; Q' \7 Xはな【花】[2]' a3 z0 d4 f4 Z% w( t, K
  Y/ G7 n( U1 Q7 G6 D% J: q  g
学研国語大辞典 :2 g; t. d, p* Y- C1 b
はな【花・華】. b7 d6 L. i: q5 ?
8 r' c; k0 A, U& S. `6 ?
講談社日中:
5 s; T1 a- o4 h1 {; z【花・華】 はな
6 U% l/ X  L( J
0 c% a1 j4 G2 Y) N

* R* }  Y2 |1 ]: D  u% U会分析成:
& c2 w! T) `4 T3 t8 E8 T. _汉字:花9 P* p  o0 n8 V9 Z. o! |0 ^
仮名:はな
& @/ I% y, Q. D. R1 o. `2 \
-----------------------------------------2 y" ]- n) a; v
小学館「中日/日中辞典」統合版 :
& \& I5 C) W0 S7 Nはな【端】
2 I8 w6 V4 u% v; S2 V. E5 F
" D1 H; N: y1 i; P+ ~0 q広辞苑第六版:8 f/ g: ~9 o, s2 s, T( R0 K, k9 U
はな【端】
+ ~" q+ W' l- C0 }% R# O4 i5 G; r, I+ u: a( G2 K7 j
新明解国語辞典 第五版:  I3 ~0 |, t4 i; p8 C# M: \  K
はな【端】[1]  V6 \+ h- z' H3 e0 W
) k! k2 k6 u4 J/ \6 A
学研国語大辞典 :
9 q- }8 ~# h4 V: k& }はな【〓端】2 S1 ]/ E$ s( b% M! I

" t, N. l+ a5 J9 S' p/ L講談社日中:- S/ x: O$ ~/ f% \& N* M# ?8 A
【端】 はな
) s7 v0 D' n9 `( F' m" J
4 s' \: f; p+ ?
会分析成:4 O& D5 m0 `7 ^8 ?& \
汉字:端) v+ P4 U% ?6 d) w+ Q. |0 o9 t
仮名:はな

$ |$ }/ D0 `' F# h* Z6 a: g: N" E; i; V0 H* a
-----------------------------------------8 l& d$ L& B8 W# O" s
然后,发音的顺序是:8 W1 d' Y4 }3 J* i7 J
1. 如果有Sound_ja.mdd( d. C4 `8 g8 G+ s0 c
先用汉字寻找,假如找不到,则以仮名寻找。
) {$ _, _% H! B, V* U' V% N2 R4 b8 x" }/ O' Z7 e* q
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"8 k$ N! {/ R# F0 ^- o0 y2 W
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
3 l6 x' v8 A+ U+ K1 G  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
* g* p+ }1 c/ ~+ ]+ i; W, j" U6 n; M     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
3 k: ?& f; V! r! J, p! v     如果只有汉字有字条,则使用汉字结果的第一个字条。1 C, J# O0 d0 ^
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。3 L: \* ?( t8 e- [4 ?
8 ~, ^+ a' D( ^# t3 |  v
     如果找到了字条,则以字条本文的第一个声音档做发音。( x0 d- e5 V5 u0 N
" O8 l/ k3 |6 Q3 P8 G! r- I
$ o3 d1 x1 X- D6 w- \9 E
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)- L  R9 V  h6 l% r7 K8 X0 J

* l; d% j- E5 u  X. J-----------------------------------------
  f, ^/ S" Q0 q9 P& E7 d4 s4 X/ j0 Z  |1 H- D6 |# w
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。8 ]0 \( [8 t" Y# F7 L
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)* q* G- {  ?) p# _3 {7 N
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
! J  y7 j1 Q+ g' I7 K
6 \: z0 K8 G3 o( P( f' V; n) N
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
; c) E& j/ R3 [' B所以当发出不是认为的发音,可以去"NHK"字典做确认。
5 I8 d# @; p! K6 W! r% M6 R0 }5 J9 i  R8 U
例如:# L. ]* K; {5 e5 P2 T- l0 {+ J
紅葉 こうよう( D( `! l, n, b, G: X: ?( @. m, K
紅葉 もみじ

3 F3 C1 B% Q# e) o) ~-----------------------------------------6 g& x3 \. R) m) o: S3 f, F$ `% M
7 C. f3 r9 s" {7 \8 H
因为EBDic会根据字典作分析,所以是写在code里,
" q5 |& Z8 B: Q6 ]9 Q- H目前已分析的字典有:
4 H4 l* v' Y! x( n7 m* P
$ ?2 f' J7 s+ E8 X  \小学館「中日/日中辞典」統合版
( r4 [: ?+ Z4 a5 W広辞苑第六版
+ L1 G  x5 G: z, i2 e1 H( X三省堂 スーパー大辞林
( E( [, I/ s2 T' Q& _- I+ u新明解国語辞典 第五版5 X+ Y% E" v0 @7 A9 Z; o$ ?9 Y. K" D' p
学研国語大辞典
) C/ B2 x& |: E! q" {8 F1 b+ q学研漢和大辞典
$ l# q5 Z- w" j4 \講談社日中
( i5 e3 \& J' y  B* x大辞泉# Z* ?% Y5 _% J
国語大辞典
+ @8 g2 s/ H! r/ c7 y! l" Z, C" {% B, X明鏡国語辞典

2 q5 v. _) `: k' O% M7 \7 ^  i! ~. l9 P# b% ^
其实,目前的分析只做了一部份。, g' f) _0 q, O5 y* q  V
有些汉字的表示法,可以有不同方式:
; c% _: B2 `2 D: d! v8 W" L例如:
* ^: k! p. f0 |0 g: s) q' V2 \掛かる,掛(か)る
3 l, A* u1 h+ Q8 V& b如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。  _1 t4 l( {5 s6 e. E. Z
' D1 A; S) h8 v! G$ ~2 v
EBDic目前也只以第一个汉字为主:: l5 ^* Z; y) F  A* ^/ F) v. G
例如:
* G% Y+ ~$ h/ T' ]% O* ]( Qはな【花・華】
% d  G/ b9 x' P$ w  B2 [2 W
7 v8 |) q, j8 @8 H: m& l$ {4 C! B会以"花"为作为汉字。' m, Z( _9 {& a+ i6 i
; ^9 y5 p9 y4 c3 E' L

' x8 r3 a; O) t: j8 k2 R另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。8 Z( b5 T: [" m% Z
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。5 d* P7 C/ h9 f6 U
----------------------------------------
: `1 c5 C" ?, d, I- P; _: A" h7 j4 b1 {0 d% k2 j
如果有发现字典的字条,没有正确的发音,
& S0 J9 z/ J3 b4 |+ O: h4 D如不是因为汉字的表示法不同,
) s% k0 |' `, F可以告诉我,字典的ID及字条的格式。% R' g. N2 ^# b
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17  a8 I9 o9 C1 C. N. c. [7 g
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    5 x: A8 @3 U+ \0 e0 ]8 f, |有个别词条无法发音,是很特殊的例子。
    5 v9 D, M0 a: Y, u2 ]+ o大部份好像都是整个NHK声音数据都无法发音,
    7 W5 X% P, i; n9 W2 ]* Z8 A好像主要是跟手机硬体有关,
    7 R' m$ d# R) c& [我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    ' c, b- t& q$ i4 \" C8 G现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20" Z  s( E% R0 i
    有个别词条无法发音,是很特殊的例子。
    7 `5 S5 E" T3 q0 y/ ]. ^大部份好像都是整个NHK声音数据都无法发音,
    * N3 W/ q% w6 n' C) b; x好像主要是跟手机 ...

    + [$ N0 i7 h6 Y; B多谢E大回复!8 t) P, j/ K* m: ~  H, u* {' t2 G

    7 q: m2 P4 C  C& O1 U* p7 {. g想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2023-9-30 07:22 , Processed in 0.033076 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表