掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4693|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
) Q' {9 Z# U, U5 v/ k; y# J/ u
; ^' y, T; _: o% Q1 M! Y# P6 h' _  c对于epwing的字条,EBDic会根据字典作分析。$ T8 \) ]/ `/ Z( W! H# T  c% d9 V

7 k: d; d, d4 O$ _7 U* P
' v* |+ b! B/ P& {1 Y例如:
+ u, d, C8 J$ E1 o+ t小学館「中日/日中辞典」統合版 :' P1 ]3 }) Y: ^& L" F
はな【花・華】) t2 J. {( L: y- }

' w6 z9 Y! @6 U6 _広辞苑第六版:
. b! k7 b  U+ b/ f6 gはな【花・華】. }: H1 F9 q' q, U

( w  N8 |) X- U5 D3 e6 ]  {三省堂 スーパー大辞林 :
  L/ a/ v/ e  ~" Z; Z; Eはな【花・華】5 m8 t/ G3 M* ~  F; e

; |  n; W# ]3 q) |4 ?7 X  F- J; y新明解国語辞典 第五版:
1 g, S$ Q) v0 {* ^5 x" q0 L& Pはな【花】[2]
, @4 p$ D+ n" E/ {
' M# Q" M+ h3 w% Y! T' H学研国語大辞典 :# g9 R' R3 H/ U! }+ Y
はな【花・華】* _4 F% d% B; t
. Y8 I0 Y$ V% K* k: B# P
講談社日中:
3 W- S! T) Q- g$ `9 N1 Q' V【花・華】 はな
. C; o; L: `' V( J/ N

7 z. X9 [" \( W; c9 F( o; o0 ~& w" ^0 T$ n& d  P
会分析成:
: m: e+ u. @* b1 B- s汉字:花/ M! I  f# Q% ?; |6 Q# N
仮名:はな

" T( p' H" X5 K& R& I1 T-----------------------------------------
5 |7 Z5 S7 a7 K) K: A小学館「中日/日中辞典」統合版 :' X% f. ^1 L( a5 A0 C
はな【端】' \6 Z5 ~) r  o, J! u6 P( E/ f* A

! s9 m! ]' n8 ?, E広辞苑第六版:
# O0 V0 G0 |& E5 L6 ]) |はな【端】1 P2 T* h, ~: b. ^
+ C  D4 C& }. q
新明解国語辞典 第五版:
* j$ @( ]+ [8 R' Tはな【端】[1]* _1 s4 C8 t; e9 C' R* O5 \; V4 V
& {1 ?. O5 x$ w) n- N
学研国語大辞典 :1 k  x% N9 }4 Y) Z
はな【〓端】% v# ?% E. f5 w0 c& l9 k- m

" ~  `( _* V* |/ \6 L8 J: v  }+ w講談社日中:& n8 u, a. m, O) o9 U
【端】 はな
9 d7 K* G9 B8 c( C

3 W  B; b" f; [: m6 k- {! j会分析成:
3 I6 ]9 j. r2 t7 M* m! W% y汉字:端
' |4 `6 c  w; \- s: E+ {1 k仮名:はな
) R" |8 A0 u- u/ f2 B
2 v' t7 l$ ~' u1 Z' K
-----------------------------------------
) k, r% r& N1 ]$ ~然后,发音的顺序是:
+ t7 s7 u5 l1 S2 ]1. 如果有Sound_ja.mdd
% O! q5 l# _, U" J6 K* _先用汉字寻找,假如找不到,则以仮名寻找。! ^; @1 K# W" [  ~5 N
- b7 d) h- O+ h8 w1 O; u' Y
2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"2 Y. [; O2 \; \) l1 T0 Z
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
, T/ ]/ u4 h! v& u  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,2 J  E2 c; @5 m5 _7 Y3 B! R5 r
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。. \4 ]: g4 D  i% l
     如果只有汉字有字条,则使用汉字结果的第一个字条。  ]( z4 I) W3 C4 V6 j$ U0 b
     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。; K: A, C. a8 _. Y4 t0 P& h( n2 U
! _$ m% f( n' r1 b" L! G
     如果找到了字条,则以字条本文的第一个声音档做发音。
* S' H. B- e& b& l- P. i2 q; V' A' L* X* v; S8 L( a

" n, H- w3 F9 d/ w) g) ?. ?+ P3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
5 ~  k, t8 h* s$ P. A4 h* [( z8 ^7 f2 r( G! m( L
-----------------------------------------# V" s" I( C. P& b8 b  s$ r9 t

+ ^% h$ P+ X1 D; U0 O1 j+ o5 G; c感觉是使用"NHK 日本语発音アックセント辞典",会较精准。2 P& Y4 p% {3 J7 Z7 K/ A
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多), a8 w( m4 F+ A% `
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。/ Z0 \' q; R# x0 ~6 s, Z$ ^

9 p$ i0 T9 \9 j5 U! Q) [/ @4 ?6 @4 U7 g: C% R, X" {2 |
但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。- _$ A) D. |# J+ ^9 c/ G# S
所以当发出不是认为的发音,可以去"NHK"字典做确认。2 g: R; a# n9 X0 C. n! L
2 \# S1 I0 \* `6 x8 U% b$ v
例如:7 b0 K4 v4 G3 R  _
紅葉 こうよう5 ]* j5 J; v+ `/ d) Z3 s  M' x% l
紅葉 もみじ

. e0 e  {0 M; l) P' S" x-----------------------------------------. s4 U/ Y: o' d' v9 X

( }6 q* y8 p: w因为EBDic会根据字典作分析,所以是写在code里,
- G$ j8 P0 k# }# k2 `& q: d2 D  ]) x5 q目前已分析的字典有:
5 f" `+ D* Y! w4 D  _3 d/ J8 C
8 X4 ~- ?% C- B* v6 v4 z+ c小学館「中日/日中辞典」統合版 9 q& J# Y; M5 f, @% e# _0 }3 z
広辞苑第六版2 V5 O2 H: B' \) B7 F
三省堂 スーパー大辞林
0 c4 j8 V4 A; J: c  Y新明解国語辞典 第五版7 |. j' v, T0 K% @& Z: E, I
学研国語大辞典
  N9 }; |1 i# ^! w- q: u: ^学研漢和大辞典/ |2 m' b, d7 |7 K
講談社日中% Y$ L8 \) ]/ y, k
大辞泉
) N  ~4 a, A  |3 k国語大辞典
  Z& F# d0 q. `1 P明鏡国語辞典

& `8 F7 O9 n1 X) U6 _
. M! d5 H/ b8 ~- Q其实,目前的分析只做了一部份。6 p9 ?! c" s4 [1 [: h, T8 w
有些汉字的表示法,可以有不同方式:& N+ n' w  b4 v
例如:
8 w7 _2 g5 O! q6 f掛かる,掛(か)る
1 Y2 `2 [8 E% u# g) `如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
0 }! E  Y% B0 q# z9 _: c% `* L$ b. _$ `
EBDic目前也只以第一个汉字为主:
1 c) {& j7 u% f# V$ l+ }例如:
; N* T% A/ {! w. kはな【花・華】
' J0 F  Q4 r" Q* h4 C' K0 x! r) @) E( G7 D$ `: U, @
会以"花"为作为汉字。. B: X( l0 ]% r. \& a
. `9 E# e; m! e( s

8 G$ ]0 r6 u+ z7 s1 X另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。: S. n) Q% k, M+ b' x# `0 a
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。& \1 Q2 Z7 `( L! U
----------------------------------------
$ C9 Z2 ]$ C% L/ C. D: V. H$ T3 }' ?% e( y
如果有发现字典的字条,没有正确的发音,
3 X1 K3 T# l. D8 x如不是因为汉字的表示法不同,! q: \0 `% V$ W  Z& K8 U+ K
可以告诉我,字典的ID及字条的格式。
$ \% @" i: U+ D: M2 a4 o6 o- k(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    % _( s2 K( P/ w, \( w感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    + U) D& S; U' r, D1 C/ x1 w
    有个别词条无法发音,是很特殊的例子。
    / m9 r$ ~4 e, i9 `1 a! F! R& f大部份好像都是整个NHK声音数据都无法发音,& a: D  X, C0 \  j/ [3 D+ [* q
    好像主要是跟手机硬体有关,/ J7 [9 {. ?/ e4 u# Y
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    0 u7 L% l' l- d. h% l现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20: ]8 _) _! U, |1 b5 f0 U
    有个别词条无法发音,是很特殊的例子。
    2 V* J; S# e/ t9 X6 {* o1 T. k大部份好像都是整个NHK声音数据都无法发音,7 d( y& K$ U6 h  V: p
    好像主要是跟手机 ...
    * t# `7 B& l% m8 [
    多谢E大回复!
    $ S- j3 O$ }2 I2 l$ P2 n; x4 W
    : U& T% _" [* A, R想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-13 22:14 , Processed in 0.031466 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表