掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4587|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
8 v* ]; T( j! n: g4 X/ A& k" s* G" U! d. G; F& ]3 y/ ]/ w
对于epwing的字条,EBDic会根据字典作分析。9 @; m: p8 N; I( _4 I3 d6 A
6 [; S( W. f' ^* V

% F2 P: t& ^# r" p  J5 y例如:
% x" D! R  w$ T7 x小学館「中日/日中辞典」統合版 :
7 }- j+ \- g3 pはな【花・華】
# T$ \/ ]0 Z3 g, M0 {% ]# X1 ~7 w0 L8 [3 a) l
広辞苑第六版:
' i! v  B3 H5 r3 \: z2 Z& p' W: s% Uはな【花・華】
; w% m/ _7 L/ |1 m3 b- y
# n! R) H# Y/ M7 B' Q: G$ N三省堂 スーパー大辞林 :: G- t$ ^! \$ i2 B* O0 \# i+ n' u9 t3 a
はな【花・華】6 P, f5 l' N; n4 r

. V$ N6 Q- V  o; }新明解国語辞典 第五版:% k6 [6 O1 g) I: O* b" x
はな【花】[2]
- _, p0 G4 h  F9 {3 |" S
% l7 G4 {0 J9 E学研国語大辞典 :' K" D9 i/ J3 }- y  g$ P* X5 Y
はな【花・華】
# u" x% [& R% M6 [5 X) o  ^; R# j7 s: Q8 [$ l9 d' e
講談社日中:8 Q2 t% n5 s4 J* H6 B
【花・華】 はな
4 p1 g) F  h; F# y8 u3 X& B

' T. p4 b: _" o
. ?- K6 Z! V; P: ~会分析成:: k( a; Y( M: n+ K0 L# N
汉字:花
& ?" y1 q& S" }: ~仮名:はな
3 C! n9 C# u( h& e/ |, N
-----------------------------------------. Y' P" a( Q& K; Z& y
小学館「中日/日中辞典」統合版 :- E8 O9 x3 o4 c: b% H$ H
はな【端】/ I! h6 {; g) {: @9 Q  f

8 O3 f( t6 X  H8 V* i4 v9 O# p1 c広辞苑第六版:
* X6 d2 U2 p( ]- o4 _はな【端】
4 l0 e4 {2 t! j2 n9 M4 d! x
1 b% A( n4 F/ e% G0 j  k/ V新明解国語辞典 第五版:
& |# i5 |; e: uはな【端】[1]
  n' z6 S& K, r8 m* A
- r* `. s9 C$ W4 G  g$ Q学研国語大辞典 :
4 M" Z# J. a  ~* Eはな【〓端】
; O+ n* n, ~, ]; |/ g
$ ?- f6 n( b* }. ?* j% ^3 \+ u. K% `# L講談社日中:
4 g' G3 K5 N+ J+ |% C【端】 はな
2 n+ A7 M2 r; ^" M& R- }& U' w

# ^# m+ ]  B0 k, d6 W; O# ^/ ~会分析成:
& q8 T- b. C+ `1 E& ~! o8 F4 d汉字:端: F+ T, X% G/ g5 E8 `
仮名:はな

3 p2 ?2 V5 A1 v9 `
" b9 w' u6 n3 H. [6 [-----------------------------------------
0 n, v5 _! I6 A# O/ Z' a/ H然后,发音的顺序是:/ W; i9 J2 t1 a, y+ v/ F* r
1. 如果有Sound_ja.mdd
1 i7 P* H) v$ Z4 B- c  j  e1 ~) S先用汉字寻找,假如找不到,则以仮名寻找。
# E: r7 y+ Y* A5 Y9 j* b
/ E6 `7 ~, Q: {5 |2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
# Z7 X$ |3 z7 T+ O4 P9 d  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
4 I# e+ V  |1 R# P, {  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
6 D8 L$ e3 a/ J" g) I, W2 \     然后比对两个寻找的结果,如果有同一字条,则使用此字条。$ b7 }. D' B' W4 E
     如果只有汉字有字条,则使用汉字结果的第一个字条。! t5 u+ h  c. W7 Y/ `/ A. |% H
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。8 ~# j, M8 g0 J+ o  u: q
8 G' b" z1 Q) d5 S. L6 M
     如果找到了字条,则以字条本文的第一个声音档做发音。3 G) v1 Q2 g5 q9 |$ i4 q1 v1 }% g2 F

/ R+ O4 G+ y0 _8 u7 S" T, U
$ p3 b  N! {+ p8 ?! J+ ]( C' U3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)! p6 D6 `9 Q9 W3 s
! ?' G2 b: r# A% R3 w
-----------------------------------------
/ P2 _  S# S5 ^) Q+ c0 R  p- \  e9 [9 K
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
" U; `  \  T" W$ L* \: y! _  w但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
5 x: m& {/ t. y4 j如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。; C/ |1 f) n# a6 K% P/ d

% g7 J, T4 k1 p" |- |
( A+ Y1 Y8 d. ^( S但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。
3 q. p. `; [0 h所以当发出不是认为的发音,可以去"NHK"字典做确认。
$ O4 u" X4 E$ c2 H. f  E9 }3 ?  _# F* [& k2 w
例如:
* _3 a2 ?' Q* c6 h/ B, L紅葉 こうよう! p: I4 n+ J3 l* A7 G: D; w
紅葉 もみじ

% l. a4 i: n9 j  B; O-----------------------------------------( H, c6 U" q: r0 [% W4 z

: I1 g  P3 C- b  V9 y因为EBDic会根据字典作分析,所以是写在code里,6 R  ]/ T) b0 Y3 p
目前已分析的字典有:2 B  e) B" `9 |& i! U

" P4 @  X" E: D4 q8 @0 g小学館「中日/日中辞典」統合版 , x8 J7 X1 b, P* X, o+ T
広辞苑第六版
8 X. C  R9 f  j9 q, s, u三省堂 スーパー大辞林
# a7 l6 T8 r6 Q9 K, e/ L新明解国語辞典 第五版0 |/ i7 R" q! z, q! q! ]
学研国語大辞典
/ s) e8 t* S$ p3 K9 C$ |% S学研漢和大辞典; d& R. P+ v' v* {4 P" P  S
講談社日中- {! b( B# @  K$ t) R* m2 @
大辞泉0 D: N$ B( q0 D! o2 N
国語大辞典
+ E4 P) Q' F) B7 \) O明鏡国語辞典
* `6 Q7 s# N- [* B

% }. n$ @5 ]3 q3 D3 K其实,目前的分析只做了一部份。
- x" a5 v/ H9 Z) h8 [9 Y有些汉字的表示法,可以有不同方式:
# w. ]2 k- i3 C: q" E3 f例如:
* C1 \- g  S9 P! ?# {掛かる,掛(か)る0 Y4 V% ]! E- w( E
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。: ]1 L# {9 L/ w3 u3 [% r6 G

4 d- O' E. Y. k4 y9 ?8 iEBDic目前也只以第一个汉字为主:* V8 G, j) s/ n3 g' V8 {
例如:* \/ S& V4 b8 K" S
はな【花・華】( f- \6 P) ^0 Z9 W" x6 g1 {* k

2 M; n7 J# u* @) ^会以"花"为作为汉字。5 L. E) E4 @0 T, K: h' L2 [

" n6 b+ Z: B' ^
' g/ L/ Q2 ^' g) {另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。1 G+ C1 N9 J2 D1 F/ `7 o- |& T" v0 `" `9 R
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
& i" }( c& D! M% U' Z% v) i6 Q----------------------------------------
- ]  l# A( P- B# s9 X
+ e4 v3 k0 N9 @' R如果有发现字典的字条,没有正确的发音,
4 Q/ w8 N9 K4 [* Y( A1 g如不是因为汉字的表示法不同,
/ c2 N/ T. j7 ~) T6 |可以告诉我,字典的ID及字条的格式。
, W4 q: C9 f* m  D(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:172 h+ |, K' q3 |
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    . X( x; ?0 }1 v: ~- I/ _/ S有个别词条无法发音,是很特殊的例子。$ a/ Z+ \8 p2 e. S% }3 r0 w
    大部份好像都是整个NHK声音数据都无法发音,
    1 X4 C! C7 J; v, x好像主要是跟手机硬体有关,# v, @6 ]3 G+ D0 V4 j# b: F0 k' B' Z
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    ; k; O2 M- Y5 p% E5 s1 n# Q现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    # J: X- x" ~/ ?" R7 @有个别词条无法发音,是很特殊的例子。
    & A, f+ J* z5 D7 L2 L$ h大部份好像都是整个NHK声音数据都无法发音,9 ^) u1 u& v$ m( r$ F% F0 O0 }
    好像主要是跟手机 ...

    / E! G0 k0 v( `& w多谢E大回复!
    : k( K- N# k& s, ^4 E  ^" E  w8 |' F* ?8 X2 n
    想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-28 03:02 , Processed in 0.042780 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表