掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4482|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
% l# O( P2 d: r
4 S! E' i- O; x% e对于epwing的字条,EBDic会根据字典作分析。
/ V% J, v8 X: A) F) J
  ~$ e) |/ c6 G
- S+ _1 g! c6 {* l, ?# S例如:6 s; V! \' h4 \9 g
小学館「中日/日中辞典」統合版 :  s' t% E/ Z0 ~( ^
はな【花・華】* Z3 q+ A1 Y+ k0 Q7 F
$ ?3 |2 P9 p5 }
広辞苑第六版:
* _( q! l# X  U0 |5 V, S$ i, vはな【花・華】9 U+ x. O4 a3 ]3 q1 N- r3 z
# t* S  M( \3 F- O
三省堂 スーパー大辞林 :
9 h8 q; ^, T9 z; |" G: ]" lはな【花・華】4 t/ q9 G9 R3 x0 x  ]0 m/ H. ]
0 L5 p9 f* H3 ]3 C# l
新明解国語辞典 第五版:! M  |& d8 ~, h& A6 [: h
はな【花】[2]  j; {$ ~& {( h5 e1 g! y. _1 q1 j

* t  z5 O2 |; P3 m7 D学研国語大辞典 :" M5 g& N) w7 C
はな【花・華】
) c0 V3 i; x$ W; V
4 m& E' X& |- L& F講談社日中:
, @  `' s3 a9 Z, q【花・華】 はな

5 h) v( t' V! U+ `: D. L( k' o" h* v* J+ `$ }9 X
# O, s7 {$ y% K
会分析成:
( a  Q1 j+ S( v6 G- n! i( J3 `5 W汉字:花  V8 B4 T7 f: f5 E, X8 R
仮名:はな
5 B- T  A% @0 g, E/ r& S0 Y+ Z
-----------------------------------------
& r8 X% R5 Z- q0 `小学館「中日/日中辞典」統合版 :
) F: y' f1 s" K) {/ ]はな【端】
3 c3 b  K3 \* \
4 C8 K* f2 M: w* I+ ~1 |7 b広辞苑第六版:
2 m: r' f2 p5 j) fはな【端】
; ]( A5 |- O9 `+ U# m
  }- A( p0 U4 r& e新明解国語辞典 第五版:) `* @( Y" {0 w
はな【端】[1]
9 S, l# f* r8 W
6 h* h. T' u9 l$ }8 M学研国語大辞典 :- A% F8 M7 u2 R4 O; a0 X
はな【〓端】
; a& ]0 ~$ B: l/ U( [/ A! [+ J( ^; v1 R' U$ B& g
講談社日中:
  ^3 X* C, Y% k【端】 はな

( D; }) C6 f. t1 n! [7 K6 x! b- S% u
会分析成:0 }& Y6 v+ K% f: `: g; B8 J: z+ L. X
汉字:端
. j2 s. j! ?. x6 W# x, S仮名:はな

0 E" x  K& t4 p" O$ I+ P' r% M5 J4 B6 W
-----------------------------------------( ^/ K# e1 J% T: r* ]+ J
然后,发音的顺序是:
8 R/ C. u; `$ w% h4 F: P0 }1. 如果有Sound_ja.mdd) g* H/ L! e! c0 X+ g. @
先用汉字寻找,假如找不到,则以仮名寻找。
: d5 o9 B1 }: x6 p3 J  r* |* D+ ?# [$ T1 @- e" e( s0 T- U! f. P: z
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"' `- u/ j1 B' ^9 {$ f) G
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
5 o) ]- k. h8 O' M  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找," h3 F) L/ ~$ a4 v- f4 h3 L
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。$ H3 F5 z3 W' l/ ~
     如果只有汉字有字条,则使用汉字结果的第一个字条。" P+ o% k- P2 ?2 X' j2 [; s
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。" P! u2 i% s8 I+ i
: z6 ]( d+ q0 |2 \5 j( n
     如果找到了字条,则以字条本文的第一个声音档做发音。- I5 {! b$ y5 z4 e% P: R4 I- K$ }
; j7 `& d3 c. [/ t
$ h! y( e) U: d
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)/ q, T7 W" X$ V

; D# U. H8 d  `4 }( ^- H1 [: \-----------------------------------------4 r( L3 Z. M6 {; y+ l& e5 ^, O

! D8 g8 r) k7 ^感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
" @1 ^6 j* ]) p5 Q2 w但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
+ Y* M4 ^, |$ @% F/ _! T$ P如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。+ g; Q" i# V  r3 K+ ~% q
& P* Z& T* A1 v

8 M; F, l+ |( t9 f! T# s但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。! \6 T  j7 N2 q3 \2 c- v/ B
所以当发出不是认为的发音,可以去"NHK"字典做确认。
' y  K0 q- ]2 I% i2 M; H! G7 W# x4 a' S& k
例如:, H" o( L3 N. j: c1 N% K! V# P6 c( C
紅葉 こうよう
/ ^, Z6 n( j/ r1 K, ]紅葉 もみじ

0 l  l8 x& @9 k$ o+ z------------------------------------------ v! }* r) @* _) l( F( B
, R* {* C. Q7 [5 Y6 K
因为EBDic会根据字典作分析,所以是写在code里,
9 p2 c' O; N+ L目前已分析的字典有:
& ^, _2 s- h3 N
  l9 g' j" X- l7 z小学館「中日/日中辞典」統合版
1 E! `0 x3 S) m! d5 I# A広辞苑第六版- {) p; G- n# \3 k
三省堂 スーパー大辞林
* }1 S/ D( q7 W5 Z. A( k新明解国語辞典 第五版) }+ D" L+ X; ^) s9 f3 C9 _
学研国語大辞典
* i$ i8 l5 @' |$ o2 ~8 t学研漢和大辞典
9 }+ b3 P) o: w- R# I講談社日中9 D; q5 F+ ]- w
大辞泉6 c9 |6 K5 l8 _0 I
国語大辞典
; `1 @- M/ i6 s+ M& g4 X明鏡国語辞典

8 W1 m2 k3 f- ]$ t3 Y% ^3 w3 w
# D7 V7 M6 c: U7 ?其实,目前的分析只做了一部份。
& F! E) S* k7 U  u! Y1 T有些汉字的表示法,可以有不同方式:" z& i9 b# @, h
例如:
3 y- l) ^, E9 q掛かる,掛(か)る
1 }% c9 S! J) S5 b. b* t6 V( {* a如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。8 \5 p" c; r6 R

  Y2 A2 T3 r) C4 Q* r1 h8 r$ mEBDic目前也只以第一个汉字为主:8 |6 H" m1 W" {8 v3 z( ?: R' X7 v
例如:! u$ ~4 n' C9 \% e- I
はな【花・華】1 t0 W& X% O2 d. s
8 K% {9 f; j  g# ~# J
会以"花"为作为汉字。
, v0 j7 Z+ r; l$ b$ {% @! p& V2 I
& X# }, g. p! x, m2 Y: x" I! o+ d+ x8 R9 F2 V' O/ M
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
, a7 A$ D( u; d3 e8 kEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
4 D3 G5 q% i; d0 d- R4 r6 |. q( D----------------------------------------$ s* E+ j, b! H) T

- v; K- [1 g& q8 I如果有发现字典的字条,没有正确的发音,
  O+ b. i, i0 V如不是因为汉字的表示法不同,
7 k% L  w% F2 t* \+ @可以告诉我,字典的ID及字条的格式。# _9 ?& Y. R% v1 @' F* S& k4 I/ w
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    ' ?1 Q- v. M8 `+ ]* ~* G感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    7 S, {* ]- O( x' B
    有个别词条无法发音,是很特殊的例子。
    ; p( g0 D2 t0 C0 u0 S大部份好像都是整个NHK声音数据都无法发音,* J; w2 t6 U- i$ L% Y
    好像主要是跟手机硬体有关,- R8 d; H) i2 M& D7 y
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。3 F0 `% A* O7 C9 _* ?, q4 Y, j  N
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    6 r( n7 a* c3 }" G* K. T3 B, R有个别词条无法发音,是很特殊的例子。% ?6 `7 I( K; @+ A4 _
    大部份好像都是整个NHK声音数据都无法发音,( m: H0 b# _: u8 z
    好像主要是跟手机 ...
    5 w+ f8 y: J( C6 T
    多谢E大回复!
    7 P+ l( L% d4 K  p
    : \) }, ~& G- u! o% h想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-3-29 13:02 , Processed in 0.037385 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表