掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5527|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 , ?  k" F' J6 c* @# |' T5 l( k
, i9 U8 c" [6 G* l1 O' l  a( B: L
对于epwing的字条,EBDic会根据字典作分析。. B$ |# i# w" ?  ?1 G# J
1 y- Q; C: b3 B; x

+ r3 d  k6 K/ D2 p' q/ F( V例如:- g0 k* C" n1 e2 A
小学館「中日/日中辞典」統合版 :
3 F: n1 j7 ?9 E$ A- l% @はな【花・華】
5 n6 m7 q. o6 [5 C5 k, W" _1 Q; ~$ E$ b, _% K" v8 N6 E
広辞苑第六版:
  {8 q- i) q0 B$ ]2 E8 dはな【花・華】: K/ r; J( k7 H# T+ p
8 H. Z' e; L3 V4 V
三省堂 スーパー大辞林 :
7 L0 X6 e7 a! g5 Nはな【花・華】' \/ d. B5 n9 }  G& U+ i
1 R% h) t# @& E2 [/ @% D& u
新明解国語辞典 第五版:
5 w9 L$ h$ E/ N1 F/ Mはな【花】[2]
2 g( u2 E+ M* |' ^: Y- J" r0 i6 W: M
学研国語大辞典 :
, k; Y$ J% A! h: Bはな【花・華】
+ Z) G0 k+ ~" R, C* E/ n  v8 t
講談社日中:
) u* W8 L, h  p9 O( X【花・華】 はな

7 b5 a8 U% V' ?% x8 t
2 S3 C& W' s$ y/ w6 f: O, `  G4 \) K4 G" R: C9 u7 ^
会分析成:
" \4 ~. S5 d3 u! K4 R% T汉字:花
. c  J5 N, d& W( {" e. B0 m+ }仮名:はな

8 G& ^3 ]; `4 f5 G6 ^6 \" |! v-----------------------------------------
' x& R4 S9 g0 P) d0 ]小学館「中日/日中辞典」統合版 :" D/ A# }, a* t3 o4 f
はな【端】4 k  v& P7 e/ d1 J. {  N: p
& c: |) t$ a0 K7 q& R; j0 B/ q
広辞苑第六版:
, f& I1 @+ T/ M1 o& w% U4 e9 hはな【端】
. H; Q( m& W/ Y- U! n* b3 G! ~0 s  l( m+ p$ J3 ^3 w
新明解国語辞典 第五版:
: W- r" W+ X* Y; a8 y# e% ?% Xはな【端】[1]) p+ D  X$ \4 E+ U
9 p! p4 _0 l2 C. a
学研国語大辞典 :! E8 r+ \, r5 E; u' j: p
はな【〓端】
: Y3 l4 v7 C. U
3 Y( Q' }/ ~$ Q. Z& s! a講談社日中:: ?: a2 J& S/ y/ }/ ^% ^; P
【端】 はな
' U5 |1 j9 o% e2 b6 T! w
6 A5 g- w7 e+ {$ _) y
会分析成:
* G! s9 W% R2 T' ?) r汉字:端
( w' [6 \& R/ }% _" k仮名:はな
- B1 V0 @6 K7 p/ \* C& O) `* ]

# D6 I- }, n  k3 T! g-----------------------------------------
* u0 d7 o1 F5 S+ |2 z- \, O% i4 Q然后,发音的顺序是:: Y) C3 r; Y0 \) P4 W" ~6 @
1. 如果有Sound_ja.mdd  S, {4 F5 m) _4 Y( i: t7 y
先用汉字寻找,假如找不到,则以仮名寻找。6 X$ ^4 m" _% E# Y
7 ^. z, c$ p% l9 Y, f- k
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
# S6 o- c1 G; o( L, c  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。2 _$ F! [" k# ~7 T' B4 V
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
$ t2 ]# H, T+ F$ j  n; I     然后比对两个寻找的结果,如果有同一字条,则使用此字条。2 P+ T" {) r3 M( r3 u* R
     如果只有汉字有字条,则使用汉字结果的第一个字条。+ I0 }) C( h6 U
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。1 U& e* ]# M- r, H  |: b3 F
+ l3 T7 F0 k  C4 }/ x# p$ \) `; D$ u
     如果找到了字条,则以字条本文的第一个声音档做发音。
& H: J/ K) }" [* ?% m
/ ?' C/ t; M7 I7 [/ |) J4 V* h. d4 T& i* y1 Z! O2 ]; x2 |: u9 g' G2 E
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)3 C' {$ g5 E2 y2 V1 P' H/ r% ?
) X( N% T; r) E9 ]2 D; r
-----------------------------------------5 i7 \- ?8 H7 f4 w4 ^% ~9 I

1 v" I7 f; j6 W' }感觉是使用"NHK 日本语発音アックセント辞典",会较精准。8 x1 R' K# x2 r% D8 d( _) F& S2 L
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
" d8 g1 s3 h7 q如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。% e" h; M  R/ A1 f% V! ^; b+ V5 R

" ]; o- h( X1 Y( t0 G' O4 J+ X- @
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
) @2 F1 X2 f! |: ]& u所以当发出不是认为的发音,可以去"NHK"字典做确认。. m. c, f+ Y4 T
5 _7 w5 `2 W2 d6 i3 e+ e
例如:2 G1 j6 {- b( x1 _+ v3 Y( s6 ?: |
紅葉 こうよう
# d  u1 Z3 Y$ U5 Z" f- C& J紅葉 もみじ
& z( f; d. `+ ~: `* }' [+ C+ C
-----------------------------------------, s' _/ ?( T2 d2 C! Q

* F( B( Q( [7 a+ c3 g/ x+ m因为EBDic会根据字典作分析,所以是写在code里,
* n! a$ u) D' v! Y& U$ H目前已分析的字典有:
1 v9 Z' }+ R( G% D2 G; z- ~- R# Z$ t: C
小学館「中日/日中辞典」統合版 ' h, e/ {$ x& H, q+ R1 a7 A- Z2 P
広辞苑第六版
* ~# W2 h9 |, u* Y% o三省堂 スーパー大辞林& m7 y! [6 ~2 Y, w& ^
新明解国語辞典 第五版( ]4 r/ e" ~- n+ w/ f- r1 y1 v4 L
学研国語大辞典
: j; L9 L& ]/ r6 G  x! L& ^& }学研漢和大辞典
" M) P5 [2 `6 y$ a3 `3 E- Z講談社日中
4 p5 N+ s' u  P% ?) }$ w大辞泉
: B+ q  U. B3 b: Q6 @2 D* n国語大辞典
+ i! P8 x: k8 ]% Z" |' w% k明鏡国語辞典
. Z! c7 ?) l* W  I& t
) R8 C( g& c# _- a# z/ V( h# b. \
其实,目前的分析只做了一部份。
+ ^- h  T# ?3 o: f2 V; r  I有些汉字的表示法,可以有不同方式:" P* O- S% `8 H3 I$ Z2 p
例如:5 q6 X, s  V( x& {9 j
掛かる,掛(か)る. j. D" Q2 Y1 g- n7 l9 B8 S( N& o
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
9 r( q0 G2 ~4 O7 x  m0 b. L/ g  l  g' G( a  S5 V
EBDic目前也只以第一个汉字为主:; R0 i' ~8 u7 A9 z1 `
例如:( l; k1 {7 h- J
はな【花・華】% C" q; `7 t1 ?  H' `/ N+ ]

# ?( @4 }1 V& O$ j: b8 K$ p  b  b会以"花"为作为汉字。
6 X% r. f4 j  a2 {+ L5 i! V3 @! l6 |" `- I) }

% N- V% F0 f/ c* |另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。# Z1 i' G& @8 `' i; v
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。3 b5 }5 X8 q* b4 r# H
----------------------------------------$ V5 G# I0 y* z

' v" w. f; {2 _, g5 A如果有发现字典的字条,没有正确的发音,1 u, x9 g3 @% ^: S1 g
如不是因为汉字的表示法不同,
$ X2 s& D/ V  P4 e9 b$ z% l" X) G可以告诉我,字典的ID及字条的格式。. x  f" P2 m% v3 z' i
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17& n7 [8 X7 y4 o/ {2 P
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    + i4 i) h, z+ t6 l. I* S, r3 @
    有个别词条无法发音,是很特殊的例子。5 t. V0 ^: F9 v" K  `/ }7 U9 x5 ]1 C
    大部份好像都是整个NHK声音数据都无法发音,
    # X) _/ J9 O* A1 D2 u4 G好像主要是跟手机硬体有关,6 |# q2 }. j- s, P
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。& c, M/ G4 _7 ~7 ?+ p
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    . m% s( l! v* d; e! b有个别词条无法发音,是很特殊的例子。
    # ~. ?: ^/ x+ t' @' y大部份好像都是整个NHK声音数据都无法发音,
    ( N7 c2 F7 {$ s' D% V+ K8 ?8 Z好像主要是跟手机 ...

    $ Q! G% \4 Z" S2 M多谢E大回复!, d" F. s6 D+ `. V, w: O

    , v9 G- H8 f: Z; U6 X6 {, ]想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-11 20:04 , Processed in 0.020995 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表