掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5446|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 1 h2 O* b2 g! H/ f

2 J; k7 }3 v1 o对于epwing的字条,EBDic会根据字典作分析。
1 y! |; a* B' d# M+ K* O+ E$ x! ]# X5 Q- H& q* b1 P- J7 M$ \, q

, ?. w+ e7 F+ }& k9 j/ s例如:, k9 [0 G& ]$ O1 Z/ u7 c
小学館「中日/日中辞典」統合版 :! h# H: _" ^9 f
はな【花・華】2 |4 c  H5 L& _1 @4 r( v% I0 L) q
5 D0 [$ k! \9 |3 F) r8 C/ ^. @  g
広辞苑第六版:
$ [/ u" H: r  ^) Tはな【花・華】5 I7 n+ s7 H9 ^: Y- n0 B+ a  p3 [9 [
. e! b) x* ?( ~7 u( R. }3 F
三省堂 スーパー大辞林 :: b4 r# V& K! g+ ]9 [
はな【花・華】, f* `) M+ x) t# }8 U+ a; m

, o- H5 z3 a! w8 k新明解国語辞典 第五版:3 z& ]. m- k  g! j
はな【花】[2]# R0 u8 t3 E& ], n) q4 r% E7 Z, x

  }& g3 M: m# f! o% j2 |7 ]* t2 a学研国語大辞典 :
$ ?' g: G2 J* ~9 Q( X% xはな【花・華】
/ O4 t7 v3 J2 X* x8 Q2 v! w( D2 r6 V6 F. ~$ a5 c
講談社日中:
! W8 e0 O* Z2 W, P& }+ l【花・華】 はな

4 k0 @1 y1 o) h: |8 A. A% e
: s3 y- X5 `5 w. _
; r6 k& k7 \; D  K1 Q. X会分析成:! [" \3 G6 c4 X* W/ j! A1 N' J# G
汉字:花7 v( Y( Z6 o$ h5 I& y8 {% E
仮名:はな
% ]* f! a- D8 m( y
-----------------------------------------8 U6 ^7 Z! L- K, `! x! J
小学館「中日/日中辞典」統合版 :
0 e  W* j- z5 _+ hはな【端】6 N# _& g8 Q* _7 Y9 K
) O1 ?; D3 ~* P1 z! d3 c
広辞苑第六版:# j7 o" z# c. F, k! ?
はな【端】- R0 X, t1 _! w) W# W8 Y2 w- r

8 f+ e7 F: Q1 j% w$ K/ V新明解国語辞典 第五版:
5 @- c7 O( ~6 p% y$ L& _# {$ [はな【端】[1]
* q, Q: n: [  j2 o( T, H& m3 S" R( b. _0 E* N& K
学研国語大辞典 :
3 R- H& r9 |& {! S9 rはな【〓端】2 L) q. K. o! `

6 G4 x1 _6 ^- a6 [$ F- e講談社日中:
1 p. |+ n8 l$ n, y) w【端】 はな
% C: b: d* I4 G

( D  T$ o! f. J* ]9 ?4 y3 V& p/ h会分析成:. f4 x( h* P  m0 c4 H9 t  y4 _
汉字:端
0 D: s; z) [) v; l+ x5 ?2 \仮名:はな
8 T4 R, ~8 U  E
" E: A" n5 n% T5 L
-----------------------------------------1 }7 x5 y7 L5 y) O. n  `% [: X; g3 H
然后,发音的顺序是:
) U5 l  Q+ X& S  y, E5 ^; e1. 如果有Sound_ja.mdd
( s9 q/ z- _) M1 V* c先用汉字寻找,假如找不到,则以仮名寻找。
8 W: s9 x+ U4 s8 c7 I
# b' r" g: Y+ C- ^4 G2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"  P9 M" C: N1 Y3 {$ h
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。4 E" ~4 I" n# P! ~, \8 Y7 f
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
; P! m$ [! G8 v- I% Q# v     然后比对两个寻找的结果,如果有同一字条,则使用此字条。: S1 C" m4 K' x% p" H
     如果只有汉字有字条,则使用汉字结果的第一个字条。
& @- W9 W/ {  f$ x2 Q     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。% g" \% j; T, p
* K. ]: Z3 U  ?0 \( F+ V" ]4 V
     如果找到了字条,则以字条本文的第一个声音档做发音。
4 Y# Z1 }' l7 Y6 T
, z7 A" z& t' o4 f2 c& q4 d4 i6 H* h' ?
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
0 f( ?  {; M8 m2 p) R, c0 p) Y, z, }% j) I
-----------------------------------------
# y% `  i' g; R: k! h1 q3 P% G+ z$ y
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。+ e4 i" I+ V# A0 j
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)" p! m8 _( ~) g6 G7 n9 P
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。* _" q' _6 O. }5 k' x6 T. o
" y- S* [+ j( w+ T* f1 D

& a  ?; H1 Y0 i- R: n但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。9 r0 D4 O7 m' r* u1 u
所以当发出不是认为的发音,可以去"NHK"字典做确认。
8 {, Z1 ]9 R, s! P; _
1 `$ i" x; K# V  Z3 [, y. `- P例如:
, E; n  _: i6 ?  a# r3 U紅葉 こうよう7 V, B3 Q' z1 o2 q2 q
紅葉 もみじ
/ p  Q. t& t5 v& I
-----------------------------------------$ G3 P9 O$ Y' O; \: _$ d, d3 z
+ v: z# G' D  V# _  f, ^, m
因为EBDic会根据字典作分析,所以是写在code里,
2 O4 e, {2 _* O3 H7 P/ N& i: t目前已分析的字典有:
( r1 }, b2 L  T! H( N% _$ K
* h/ c5 E  {; d. }4 r! P- L0 h: B小学館「中日/日中辞典」統合版
, U0 D* [7 F& u& y: K広辞苑第六版
3 \* i% c+ P2 o: E* Q( t, |& [6 s三省堂 スーパー大辞林
% ?  x& ^+ |, i8 H新明解国語辞典 第五版
  f- o' d4 S' e2 u  c# k3 U学研国語大辞典
- o& T3 K3 L; t" }9 j" l学研漢和大辞典
; |) }4 e( r" D講談社日中5 x8 E4 K- i; Q: V- [  }
大辞泉
! o: T% a! C; K- F国語大辞典0 C9 T( v5 ~2 g, k
明鏡国語辞典

8 `# r% Z) C8 h* f- L9 I% W0 x7 B7 f4 c4 V
其实,目前的分析只做了一部份。2 e% z3 x2 m  J1 B2 Q. S% U9 y
有些汉字的表示法,可以有不同方式:7 \0 w$ c0 B4 I/ E6 m) N
例如:$ g7 C! J' f9 R2 \; `+ n8 V' l1 ?
掛かる,掛(か)る) o- e9 J: w" ^; l
如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。, b$ t6 ^0 Z( Y) a, v+ R
( a  e" o5 I8 H! Z: T9 g! F$ ^
EBDic目前也只以第一个汉字为主:
8 z" }! P: ]7 B+ f例如:
" e$ T) A9 v& |& y) W$ T2 Vはな【花・華】
5 B# R: N5 [/ K8 @5 L1 ]  C  g: U# v9 U+ `
会以"花"为作为汉字。
& ~! |  d+ m! K6 j/ x* l2 d7 g( w5 m
$ I; p/ b& B4 u
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
9 H+ ^: c2 Z/ O' aEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
  x! b' W/ J4 S  D----------------------------------------
. [4 d9 O1 W% ]" M' m8 f
' O: L# A& F: N+ _3 z6 y如果有发现字典的字条,没有正确的发音,+ ?' z" b9 I0 w5 h# K
如不是因为汉字的表示法不同,
8 ~# l: D5 W% y. Z; b可以告诉我,字典的ID及字条的格式。/ e/ T+ E. o  F0 @3 z2 _
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:178 E: N5 a) _9 R" ?: z/ J/ q8 ^
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    3 w, B# s2 u* |; q$ ~' a有个别词条无法发音,是很特殊的例子。
    4 S" K3 a4 j5 h# f大部份好像都是整个NHK声音数据都无法发音,
    ' ^% ^( D' s; R  k7 y3 E/ Q' \好像主要是跟手机硬体有关,! `; h0 k/ o) e) O
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    $ y+ d* l1 i+ t, J现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20! i" R1 i* \3 N7 Z
    有个别词条无法发音,是很特殊的例子。6 c9 R0 k: v  i+ ?1 V% N
    大部份好像都是整个NHK声音数据都无法发音,2 ]! W: J9 u9 B) m/ K
    好像主要是跟手机 ...
    * F7 C& {  }/ z! u9 C4 I
    多谢E大回复!
    % {6 X" ^( N: Z7 l& L
    % E" L7 ~( x" s# N+ Z8 P; v0 k1 `想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-2 19:19 , Processed in 0.021261 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表