掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4589|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 , Q, B: ^" U( v/ k1 {

% e) S/ Q" n+ [8 h3 d/ Q4 J对于epwing的字条,EBDic会根据字典作分析。
8 u1 j- [) N2 k; X* j2 h1 j% u
4 M3 I0 o8 m0 o* u( U4 I* `
$ v, F4 h  i7 k3 |! Q) [5 q例如:  N1 {$ ]) Z% \# |3 m  _: Q- q
小学館「中日/日中辞典」統合版 :: y/ v/ _# ?- m. K7 x
はな【花・華】
, D! L* F0 d  h$ C+ X) `! n' D- m. I( x4 ]  l
広辞苑第六版:
) ]/ Z' V& i4 S! c+ zはな【花・華】
! d" d8 y9 l2 I9 I: H: _6 X
! G* ~/ D  G: O三省堂 スーパー大辞林 :; i" C2 C. d1 Z
はな【花・華】8 z: y& ^* x3 A

  r. V3 q$ N+ X; z+ I: r/ `' a新明解国語辞典 第五版:3 T+ O# R  y* U+ U' Y' @' b, L, X
はな【花】[2]
/ n; h* b9 Z6 l7 P
8 V" P( w* h0 @. r* U( q6 N" t学研国語大辞典 :4 I. t4 d3 ?, ^$ q
はな【花・華】) m" K1 J- t9 N

; q/ m( B* P% a9 a1 a/ ~; u講談社日中:
$ [* a" j- X& p) A4 d( t' Y【花・華】 はな

  j0 g4 J: p0 ?- Y
. X" Q$ \+ l) K* N) Z: ~# l2 K* ^5 P; }" P0 B
会分析成:! [" b1 W' Q# E3 o1 Y7 X$ k  |
汉字:花
; t, E6 m! i' a7 X% |, P1 i仮名:はな

1 J4 F; f! i3 M-----------------------------------------
% s* C' X) D% P小学館「中日/日中辞典」統合版 :
1 K$ m" l! E) \' r) y) G" nはな【端】, z( K( b1 ?6 O
. Q, y* {/ Y6 ?( b9 g
広辞苑第六版:
/ s: h! h# X+ g+ n5 Gはな【端】2 S" p. j' J; _' c

" Y2 }& S4 K8 u- c- K新明解国語辞典 第五版:
5 b/ U/ ^: P* Y% g5 l! S* ^はな【端】[1]
0 q# t' R. U# P9 X4 |& {* \% M& [3 g4 v% n
学研国語大辞典 :8 O4 m+ W4 [1 b( Y9 n& C: y) s
はな【〓端】0 _$ l" W7 z: m# _( }: c

$ ]9 v3 u: B8 n- G' u講談社日中:( S  a! j( I1 t. S. e
【端】 はな
* K5 M  S4 C) A# N7 c4 j  i8 v
: d- A4 |( G! e- ~2 p1 Y# U
会分析成:8 c, R, w5 d- x8 C: R- m/ i
汉字:端
0 h3 }. |; a' m  b仮名:はな
1 b/ F$ d5 i: [; C* n6 S
3 ~6 G7 z# C7 A, b, n
-----------------------------------------
  u( [: k7 A$ v% a& u7 ~, w  Q然后,发音的顺序是:2 e# e7 f" g, ?3 ~2 c6 z/ Y& X
1. 如果有Sound_ja.mdd
$ b  V# h! v8 m5 [: i: @' B先用汉字寻找,假如找不到,则以仮名寻找。
; o/ a  _  @4 K* L8 l# O- `
3 P- Z8 z' q& ^- |8 X- p+ q; _9 }* p2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"/ _: g2 h" [2 e) ]+ d& e& F
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。: A8 l, X8 {/ A4 Y3 n8 e* n
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
: e8 }$ W! \2 y, l2 |2 v/ R3 g     然后比对两个寻找的结果,如果有同一字条,则使用此字条。# i: d! Z, m: E; ?
     如果只有汉字有字条,则使用汉字结果的第一个字条。
5 H, R$ v: r9 ^# \. ~     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。: r% ?6 _: N" a5 e

- c/ j  C! p' S2 r% E     如果找到了字条,则以字条本文的第一个声音档做发音。
( n3 s  ^4 U; C) ^, Y  ^3 i' Q
# z8 u, F% I( y
: P2 L# f1 z, m4 A3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
" [2 ]- D: ~7 H8 a, D9 ]3 W- ^  u% S
' H. Z- s' h$ X$ x$ t, W# S-----------------------------------------; i+ g. g. W! l  B8 |
, U1 A& z2 w2 o+ p
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
6 h/ k/ k# G  d8 E但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
8 E% ~9 Q% O0 T! K5 C) T如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。8 I2 m: p; B) ?- R% Q

# ]4 i7 ]! i* B. u: V
% C9 \, ?: K5 t; ?但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
8 w6 `+ k" E1 i  r所以当发出不是认为的发音,可以去"NHK"字典做确认。+ B$ E6 e! e7 `# z* b6 M

+ @) h9 j, X! k1 k例如:
6 a8 K6 ^- ]& y4 G! @  I6 H紅葉 こうよう
. n9 b1 I( t  B6 H+ S( H紅葉 もみじ

; R4 ~9 j. U* U3 Q: g8 e-----------------------------------------
% C1 ~  M2 P3 S+ A" q/ C% T6 J" s/ _$ k
因为EBDic会根据字典作分析,所以是写在code里,5 {2 P4 M! Z9 c4 q1 @) ]; b. B9 M8 a
目前已分析的字典有:
& t, v. X. j2 y3 l3 F
1 o0 Q: n8 f$ S  X) r小学館「中日/日中辞典」統合版
7 _" l4 r4 I. f& B- }4 t7 L  w広辞苑第六版
! |+ J* x5 `: r! J8 _/ h" i2 I" i三省堂 スーパー大辞林
6 ~  ~8 M9 e  R) Y' f新明解国語辞典 第五版1 e: E3 L5 k4 t6 L
学研国語大辞典
8 o1 h5 n# ~' c$ u. e& `1 p2 A: \学研漢和大辞典/ D3 w% y& p) L" P1 Q) M
講談社日中
$ C! Y- h0 a; R( S+ u0 N3 l& z/ P大辞泉' T1 f& \! w1 u
国語大辞典0 Z% p* g" z! i; H" |
明鏡国語辞典

# j. R5 R$ e2 k' T8 x4 \  n3 ~$ D" c& F$ P" Z. l
其实,目前的分析只做了一部份。
" \' Z2 V  |" a* ]/ @) w. @5 `有些汉字的表示法,可以有不同方式:
% w( b, ]  ^% L7 G- d例如:
9 K. b+ H& K+ C; O; Y( z掛かる,掛(か)る7 p2 \: R3 E- F9 C5 k3 O9 ?
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。- m7 S; d0 \" S2 c0 J( d

! h0 \0 a  Y: y; `, l$ @6 g, aEBDic目前也只以第一个汉字为主:
% D' m9 m3 `. U! t6 Z/ I" c例如:" @8 e, R: o. v; g
はな【花・華】
6 w( G5 W0 q" u$ h$ [
% A5 }+ o3 V8 W1 q% o) I' a会以"花"为作为汉字。
( Z- x7 K0 c. l/ C
7 Y8 u2 _. {4 y( W( y0 x( F. w# b. t
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
" Y* _8 Z# A' Y$ R+ ZEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。3 y! a" t( z! x0 y$ Q2 ]
----------------------------------------0 Y9 Z" E  x0 A9 n5 Q8 r

; v! k7 l4 a# K如果有发现字典的字条,没有正确的发音,
. ]) k% ]" ^/ R9 u* W- {如不是因为汉字的表示法不同,( U3 S% {: }9 z& K6 {  T
可以告诉我,字典的ID及字条的格式。
2 _! N4 S5 V8 D( I1 b/ X(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    ! M# X$ d. s  n8 E- j3 |1 n9 A2 ~" ^感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    % q) M  ^* w4 X, g6 A( ]# S3 @1 p
    有个别词条无法发音,是很特殊的例子。/ G- h. f* G6 R6 q: V, }! i( v
    大部份好像都是整个NHK声音数据都无法发音,
    , R( H3 O( w' ]9 V好像主要是跟手机硬体有关,9 _8 r; K* r6 N$ j1 v, \. Y; P
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    5 Y% [+ o. j7 j; M: \现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    ' x* [/ W0 n/ a" x4 {" `有个别词条无法发音,是很特殊的例子。/ M  m2 e0 ]7 P
    大部份好像都是整个NHK声音数据都无法发音,% S. V! e' E' D2 h1 r. U! R9 f
    好像主要是跟手机 ...
    , {! K% g$ u/ E: b
    多谢E大回复!
      O: M- c! y+ `0 J6 \. h( C7 L9 \0 B7 o5 m7 @' I8 h
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 11:34 , Processed in 0.047728 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表