掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4586|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
5 K4 r1 n/ O7 E/ V: U+ `! p  R
对于epwing的字条,EBDic会根据字典作分析。
* x4 W2 }+ t6 {$ R1 _8 `1 }
. Z# x- _, M1 U3 r. F) Q* T: z$ D: ^& m* d8 J1 P7 n1 h! e9 e: W- @
例如:0 p( p) v4 y, t7 c2 g+ |
小学館「中日/日中辞典」統合版 :
* M! z/ R- u/ gはな【花・華】( Y( L1 r1 }% E* n
5 M. p" v! @: a
広辞苑第六版:$ J7 K* A+ C6 j; i+ G+ \: y
はな【花・華】
5 O1 R7 @! C3 r3 J% \
. i, @5 c3 N" v1 y2 F三省堂 スーパー大辞林 :
# h3 T: r" T7 F8 Cはな【花・華】$ ^3 N* a5 t: D, {! H

1 y6 Q  Y  k$ I! ^6 }7 x, x新明解国語辞典 第五版:& O! p/ p0 j' J' z
はな【花】[2]" A8 M6 i" z! F9 E% M1 [

& k+ N, D, [" X学研国語大辞典 :! {* }) l1 E- G+ I" S- c" |
はな【花・華】
: Q) q" F0 p' O2 A
) \" }0 D, c/ i! @4 m講談社日中:6 y' _1 T% l, A+ ^' j. X: m
【花・華】 はな
: H* O% E; T: O4 S' }
8 {# Q  Q8 N/ ]( e% Q

: }6 J6 w# q' p8 l( h* H3 I会分析成:
' P8 k" u! n+ E汉字:花6 L  p: D5 u! J! r$ O" A
仮名:はな

4 L& `) y. ]1 v+ _, Q6 a1 R-----------------------------------------
/ W1 C+ U: S% H0 T) m小学館「中日/日中辞典」統合版 :
% f# @4 V, N5 T( e0 x* B# ^! Qはな【端】( X9 c; z8 t, q0 T# E

5 T2 ~/ }" [0 w+ ~2 {' O" H& U広辞苑第六版:
! p; A& F7 F4 C1 P+ n0 X3 E$ o' u/ Bはな【端】
- C. r  g8 x. ?1 U) W. v
2 V% s$ m' {8 s+ d) C新明解国語辞典 第五版:
- _" j, l' A8 a7 Z: tはな【端】[1]5 r. G' o1 J2 y7 X  S! p# a

- {# a/ h% w3 Z$ i3 S# J/ V7 U学研国語大辞典 :' Y7 x; ]1 o& n! W% d
はな【〓端】
7 ?1 }+ A. t* B  V5 i+ E5 ?
) N' m  \' j5 a  F" @% E6 L講談社日中:
  P5 r; M: t0 n( Q6 t【端】 はな
) s  _" {! f- q  j

+ Q, @0 G3 m; z4 l会分析成:
8 n  e6 X  Y/ Q" X6 ~汉字:端
; \5 c5 `0 E' S2 J- n$ z  K) R, Y. M仮名:はな
# }7 y$ O  [6 b7 ]

; {; |; v/ M0 g. [) S# J% l-----------------------------------------
7 Q% S6 B* F. N3 l6 S然后,发音的顺序是:$ c* G6 S; f& C  \
1. 如果有Sound_ja.mdd- D% R3 i# p8 \, d. R
先用汉字寻找,假如找不到,则以仮名寻找。
7 L: G1 v' n2 x3 R' w$ T+ \( K
6 m( j; ^4 X5 w/ p0 L2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"$ y' e0 p$ b# q2 C2 S" k/ E3 r
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。
2 M2 \( d7 h& w7 f  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,
6 Y6 i* ^% z& X9 U8 z; x/ ]9 I     然后比对两个寻找的结果,如果有同一字条,则使用此字条。, o1 D$ Y& [% N/ p/ m# T
     如果只有汉字有字条,则使用汉字结果的第一个字条。
5 K2 d2 I8 D; C' c" u' Z" B- E     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
5 A! ]" _/ D1 H3 v& y* E7 m6 n$ e
. D' _/ o4 O  r( y5 `     如果找到了字条,则以字条本文的第一个声音档做发音。
/ D0 v' D( j- y+ B$ C7 O5 S8 C4 k5 w
" y0 ?' m( T) T
3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
9 C& {1 U" D) X+ J0 i+ [
9 `. T  V, \3 [' b) \% l" r; B  T- N------------------------------------------ L, i# Y6 O( m
/ r9 D6 X8 r) B) Q6 l
感觉是使用"NHK 日本语発音アックセント辞典",会较精准。, E: H* s( N% S2 h
但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)8 u% ]6 _! q8 F% X
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。$ N  O8 N4 d) H" x
; N0 N7 D4 b9 ~5 \+ n

5 A1 X; L  S% e" P& _  M) o但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。' `. @4 t# T& G4 R
所以当发出不是认为的发音,可以去"NHK"字典做确认。! U% Z/ o/ U8 ~
  l0 _* T9 C; J& _$ y# a
例如:
+ T6 u- v: M& S- {9 ]6 j8 g' V紅葉 こうよう
- F& N6 i) Z! w2 L5 i. J紅葉 もみじ

5 Z( n2 v9 L! b( j! D) B-----------------------------------------* z+ u: w) ^3 Q" k) T

* F: X" H2 R, b* Z1 h; ^* ~因为EBDic会根据字典作分析,所以是写在code里,
2 b  U! ?8 K9 I% |目前已分析的字典有:
! B# o* ^# X1 z
5 v& x; N/ l7 ]$ }小学館「中日/日中辞典」統合版 * s0 s  x1 j1 R: q# A, T
広辞苑第六版
- b1 [9 b8 Z* a  d3 w# |4 N: P三省堂 スーパー大辞林
7 @- T" l/ U/ G# Z5 w9 }5 Z新明解国語辞典 第五版' p9 E2 j. K% e- v2 c
学研国語大辞典
! A+ {0 t% R" D( e! X学研漢和大辞典0 v' d) m$ s& u+ p: A
講談社日中) K0 i! s) m7 A8 K+ O1 b
大辞泉
2 O; q+ g& a0 `3 u9 t国語大辞典
# N6 z: Z# F# E0 B$ q明鏡国語辞典

2 h; k8 V% D0 B( _. I# ]( x' {: ~1 Q5 V# B" g, [5 ]
其实,目前的分析只做了一部份。
1 }% D/ K+ z  w: Z# E有些汉字的表示法,可以有不同方式:4 b+ u6 f$ E" I6 o1 M' I5 m
例如:
/ k8 K- v! \; I9 C+ x掛かる,掛(か)る
" G) V0 W7 m7 r5 m  `如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。( q' N# Z" I# _/ F; [! ]

+ G! y! B5 R$ F" k. w7 HEBDic目前也只以第一个汉字为主:+ q5 M! K3 l1 {, r
例如:% I! N/ J! S9 j# @* K
はな【花・華】
" X/ N5 n: N/ s* Q8 K& v
2 D3 R3 ^% L4 A! P* c会以"花"为作为汉字。
2 v. I1 u" \* B# B8 K1 ~7 \" q' P$ F- U7 `2 [1 a0 Z+ ?3 j/ a: e. h

0 a; w! U, q0 [  I& p1 X: b另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
6 x& W3 l5 r3 i7 a. Z" R) CEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。
0 ]- A! X1 F) k$ i----------------------------------------
: C: W5 \: [! n2 L2 g+ D; ^/ q# G4 [) S9 g& L
如果有发现字典的字条,没有正确的发音,/ Z2 |' X3 k" Y& S, V
如不是因为汉字的表示法不同,
9 e1 P5 t8 b' s2 C) l7 ?' `/ r8 P可以告诉我,字典的ID及字条的格式。) V0 u7 ~& a7 D& w6 x: c% P5 j% w
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    ' M9 w6 p5 z$ h/ U* u感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    " g* |9 _: O: M& ^% L; _
    有个别词条无法发音,是很特殊的例子。
    ) F$ E+ p+ n" f8 s1 O2 ^' Z- D3 C大部份好像都是整个NHK声音数据都无法发音,+ G0 A0 P  K9 x; [) ]8 T" O
    好像主要是跟手机硬体有关,! T' g9 u/ d' v1 T. L3 \  P
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。
    " A' U1 g8 K# ?* X* V  L: x现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20  n( ?7 S. F% `) w3 \4 {  H
    有个别词条无法发音,是很特殊的例子。# H( `7 \# ~6 y4 R3 Z
    大部份好像都是整个NHK声音数据都无法发音,# {8 ~5 ^8 S6 l9 v% u% l
    好像主要是跟手机 ...
    % F5 {: b0 K- @6 h6 D$ I
    多谢E大回复!
    ! Z# V; P; a  T9 r: {5 u
    ( h$ B- ^* l8 z1 e5 \( W想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 05:41 , Processed in 0.038640 second(s), 8 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表