掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5521|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑 , K5 W& Y6 \0 Y, B3 S4 r6 \

1 b4 W. ?7 _0 I& I. \对于epwing的字条,EBDic会根据字典作分析。
" }/ |& ?4 h0 B) E  m* S% y0 S, A
! ~/ ?% I4 a' F( a- f& @' T( C8 X0 y# {5 M
例如:
& C; F2 e( G9 n3 ?) j# i- D& b小学館「中日/日中辞典」統合版 :4 E% Y7 _  ?# I3 H/ Y
はな【花・華】
- [* H5 O3 Y7 z/ `( F  v) o- g3 y5 M
広辞苑第六版:
/ i8 m, V3 [5 l; N! wはな【花・華】
8 b) X+ I8 o7 I/ t! i+ W  N% f
三省堂 スーパー大辞林 :' r+ H4 V1 p1 k5 i' W6 q
はな【花・華】9 R8 W& \7 L; g9 [3 M, @8 M0 p
) j$ y0 P: a# e8 Z8 a5 Z
新明解国語辞典 第五版:
6 X! o$ O" @$ M; Q( F4 n2 tはな【花】[2]% Z1 f  I% H* Y8 y

, P; {1 y% q" ]) _: `, t学研国語大辞典 :
# N: p# m, d4 e. d+ f8 c  }* jはな【花・華】$ l' F7 e+ ?9 ~8 `7 K% U

: [+ p9 a6 U( s3 Z- M) X: v3 a講談社日中:
. J+ w: S8 R+ r2 X* Y* [& o5 [0 S【花・華】 はな
- x0 k1 ~5 y% f* E
: u; \  O" }3 [# |  G8 P7 g
7 E, n# f: \5 r- B0 E
会分析成:
3 P9 m9 P% A1 N1 Q& W; }8 ~汉字:花
3 K0 u! z7 ^4 L4 Z" B5 h( Q9 O仮名:はな
. x- h) D; K$ g4 Y
-----------------------------------------
) M. k3 [9 E9 p3 E- o* M  f; g小学館「中日/日中辞典」統合版 :
) s6 X9 l3 T" vはな【端】9 {" G: ?; b9 H' p
( l$ [' o, @' f5 h
広辞苑第六版:$ {, H" i1 N+ }% {8 a  M7 ?
はな【端】
- I4 z  r+ }9 U4 e/ e
7 W. U1 S; \4 m) y- W新明解国語辞典 第五版:
$ ?, `; `8 a( [+ yはな【端】[1]! @) K4 u) d4 O1 K7 C+ q' H5 g4 S$ ]

: _/ a  q0 Q3 o% l$ C学研国語大辞典 :8 H" d, M) V5 Y
はな【〓端】
# ~2 J2 L. z  [; M5 k! ^( E$ e
8 h( }* ^) J" c6 F! x; y5 c講談社日中:
1 B' I3 G, Q4 d/ ?8 T+ r【端】 はな
" L) P- {2 \) q3 ?8 @9 b- `  O: }8 o

  ?- N2 S) b0 g! B) f) m8 c会分析成:6 o3 ]7 |5 H# j) F* k/ }
汉字:端8 u/ j% T/ n+ ?3 L
仮名:はな

$ I4 \- C" q( i7 }+ ?9 R/ H8 c" R
. [& E! i& k1 e2 p9 G: |5 K------------------------------------------ c* K8 o2 H! g: G
然后,发音的顺序是:
! \9 e7 p5 C3 l2 R1. 如果有Sound_ja.mdd5 m: E6 n/ b) B2 s: G& V  H6 a
先用汉字寻找,假如找不到,则以仮名寻找。+ l( p- O# ?; s4 Y

5 n- H/ S4 Y3 Y& H( Z0 T/ V" k; I2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"
8 t- m- v: O  i! Y$ [' p  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
) j4 C3 M: `5 Y% b9 p2 R/ x' y  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,1 ~% R, m, I! ^& D/ a* j! \+ y: Q
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。
+ W' q* s( Z3 i6 Q     如果只有汉字有字条,则使用汉字结果的第一个字条。
9 x" u# T; L! w( g' r     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。5 b* i& t3 J2 k. |+ Z
- {( P$ `0 U7 l6 h! S# i
     如果找到了字条,则以字条本文的第一个声音档做发音。
8 l9 G1 z6 f% C+ H8 ^
4 _/ y' r5 K1 x3 L6 p5 Z0 d% d" G. E) |& T$ @* {( w
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
2 v7 X" e6 R- H9 S% n- C1 N2 H% n6 _- k
-----------------------------------------
& M- v: D; @6 v  V0 b: h
4 O. U" y% J; \. G" P; f* v3 h感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
3 [& Z' r) ?* t+ h但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)
0 T: W3 I* }* K% {如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
, ^- q8 C( N' K+ L: A$ }, N, b; `+ X! n, L2 d

% M8 G7 Q; Q1 g* u# ^3 O0 S但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。8 v+ {& @3 C: N6 R! C1 s
所以当发出不是认为的发音,可以去"NHK"字典做确认。' C: c6 Y4 v7 Q8 I# V* w
+ b. Q. V1 F1 L) \# E. F
例如:: z6 a. b" C% @3 H$ q6 y
紅葉 こうよう( b# @4 `* i6 m2 ^% K& f
紅葉 もみじ
, \8 w" a9 B/ e+ L
-----------------------------------------
. `- B1 Z. P+ f" @# t. o6 u2 q* Z: d: X# u9 \
因为EBDic会根据字典作分析,所以是写在code里,& X3 {7 S& {' o5 t; X9 M
目前已分析的字典有:
! e6 [; @" v1 C/ O% f& I  Y
5 K$ [1 n& ^; j6 n# ?) z1 J小学館「中日/日中辞典」統合版
5 e: ?+ u: m+ F; m' U# }1 V4 g広辞苑第六版8 o' M$ p& }6 E- R7 }& W" J& i) Y
三省堂 スーパー大辞林6 a* P4 E0 K3 j) `: U
新明解国語辞典 第五版) ~- r/ \% Q0 f6 Z" d/ X7 y
学研国語大辞典
2 i, e/ ?+ _  w+ |学研漢和大辞典
2 l6 ?! W& W' W7 R6 r講談社日中0 I- g* U" v( V9 Y" X
大辞泉! c( X$ Q9 K  q4 N9 V, U# s. N
国語大辞典
. K( K+ k6 o3 N9 @4 K明鏡国語辞典

7 f$ |# w) k! P- G' F* |) c4 E2 P/ [1 e* H
其实,目前的分析只做了一部份。
2 o( J* G- h+ D0 s8 L有些汉字的表示法,可以有不同方式:
# H! W1 A1 [3 Q例如:
0 U' C. j) e: p9 Q$ f掛かる,掛(か)る
6 \" s6 q  v3 k4 d$ _2 w如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。
1 `8 `; Y; q) d$ B% e! {' O+ D6 g/ o2 X8 c4 n  K
EBDic目前也只以第一个汉字为主:
$ ?) Q& {' [( G5 F) h9 `9 d例如:
1 o" U: }3 _8 Z# t2 T' b, c0 ^はな【花・華】0 @! N$ `6 E" C8 q- {
' B* l. _/ P. J$ k
会以"花"为作为汉字。/ u! G! F6 q! w" ~% N
# e$ D9 [4 W! u2 ?
* m) G; h8 \, o, a3 ~8 }
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。6 Z* X- e: G% B; }+ f1 _: `
EBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。) Q5 x/ J3 k5 a7 e! V
----------------------------------------
9 n3 l. n; T% ^4 B
6 ?6 b8 t( ]" [" u$ Z如果有发现字典的字条,没有正确的发音,
$ g2 Q4 G( ?0 ^如不是因为汉字的表示法不同,3 q4 x" B& ~: e, U1 C4 ]1 ]5 O/ a% v
可以告诉我,字典的ID及字条的格式。3 y/ D6 n" h/ P( Q$ D
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    ' H: k' s& y( P0 S% [# h2 b# J1 G3 K感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...

    ) ^$ K" G: u' _有个别词条无法发音,是很特殊的例子。
    ( n: }  o7 B' d  H5 k大部份好像都是整个NHK声音数据都无法发音,
    & B, H. q* \1 S好像主要是跟手机硬体有关,
    2 B' H' S3 N' }7 _我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。1 @  I( e/ l  h0 M% M
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20: f. I) m# o4 ^6 x0 z
    有个别词条无法发音,是很特殊的例子。8 P& S* l5 E- m& Z
    大部份好像都是整个NHK声音数据都无法发音,
    0 C( J; O  H9 L2 D  b( M; ^2 o好像主要是跟手机 ...
    7 l; u: S( |8 q- K0 o
    多谢E大回复!
    - B& e1 t/ \1 E  S2 C
    * p: Z) F8 Z- @6 O  X想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-9 17:28 , Processed in 0.021771 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表