掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5413|回复: 3

[经验交流] EBDic处理epwing字条的发音方式

[复制链接]

该用户从未签到

发表于 2016-8-3 14:18:56 | 显示全部楼层 |阅读模式
本帖最后由 ebdic 于 2016-8-3 17:32 编辑
# i/ }7 x& O+ z$ U4 [2 @) {
  o1 T  @: k1 G6 F6 K% n对于epwing的字条,EBDic会根据字典作分析。+ Q' n. C( }3 [) ~  {

+ R' R1 I" r; @0 x4 f( U
$ w0 k, m& s) Y例如:/ V8 {" X$ Q. V+ w# @2 u
小学館「中日/日中辞典」統合版 :1 R; z9 Y& P6 r& y2 j
はな【花・華】
7 d* \* Y; N! r, Z' }2 g% s7 H0 h. |) Y: e1 n- W( N
広辞苑第六版:
* R8 G5 b- T& D7 L, v0 a9 Mはな【花・華】
' p, d, }- k' [, U0 x! x( t! m$ h% V- a8 n/ e3 ^% R
三省堂 スーパー大辞林 :
' H$ C/ u2 Y4 l6 \はな【花・華】  S0 q+ Y2 G' w
% _$ I- ]: z/ ]# I/ j' t3 j
新明解国語辞典 第五版:
$ z6 a5 p6 a1 P# A) ~8 b. q7 iはな【花】[2]4 p! V5 J, `' M6 p  p; n3 c

6 |( y1 F& q1 K, {* V8 m6 ^! t学研国語大辞典 :+ F* ~* }% Z1 ]* @1 S4 L2 `
はな【花・華】7 ]1 ?+ a7 S! J& {$ y
5 k* h% T0 E- N$ ?3 j6 D! w
講談社日中:
4 w4 t! \% A( U【花・華】 はな

5 H2 ]$ @/ D: r8 o
' I& {& [8 q' o* T. T/ X. ~" \  I" e
会分析成:
% [# w, a& J2 \# `9 P8 Z汉字:花
2 U! D3 y! X" C. s- k仮名:はな

, J* z' d9 G% A; A" ~% |-----------------------------------------
4 X, k7 q" Z! |$ l& V& p/ Z9 c小学館「中日/日中辞典」統合版 :
% L$ ~) [+ p1 ?4 b3 \* Rはな【端】1 E& J! ?" R  m5 _+ c5 ?

# x2 a, M8 t4 a! h; `広辞苑第六版:
& Q) a$ [* k1 Z, ?& ?0 }& eはな【端】
4 L, H0 R% p! K; C+ ?' u
# J+ ~8 q: D# i, A6 }新明解国語辞典 第五版:
$ D- Z0 N0 Z+ Q, ]" {はな【端】[1]
$ Y/ ]% D, m( y$ o0 Q5 u9 }% C6 M5 e; b
学研国語大辞典 :
* G/ \8 G1 g. zはな【〓端】
, l3 k' t0 i* P" \* z, F2 B" p9 C: Z! A
講談社日中:, n+ ^, {9 D& k5 d3 R! @" k* V: j
【端】 はな
$ O& e  @! O" R- a) g. W
! B4 W1 y; \- Z: Q
会分析成:$ F5 D5 V0 M7 p/ y; @
汉字:端
# S+ c$ c2 @0 a+ X3 d7 B& B- `0 T6 @仮名:はな
! i0 }1 s* x2 Z! q& x7 R# u+ I
; W2 D1 E) @- K. `
-----------------------------------------$ @0 y) L+ V( t
然后,发音的顺序是:
. N$ V( H! [) Z; t2 Y1. 如果有Sound_ja.mdd
) v) R  z+ @. Y8 S8 L' L) Z6 |$ `先用汉字寻找,假如找不到,则以仮名寻找。% d, q2 l' y7 g( t

5 w, Z; o+ T2 g7 }; y' h6 X, _# F, }2. 如果没有Sound_ja.mdd或找不到,且如果有"NHK 日本语発音アックセント辞典"( C0 P2 N& |- I3 k, G& W" @$ M
  a. 假如只有仮名,则使用仮名寻找,以仮名寻找到的第一个字条为主。2 [! Z2 e! k8 Y
  b. 假如有汉字及仮名,则会同时以汉字及仮名在"NHK"字典寻找,5 g! A+ X' |% A. ~* S3 R
     然后比对两个寻找的结果,如果有同一字条,则使用此字条。- C! M1 d, Q# |0 D
     如果只有汉字有字条,则使用汉字结果的第一个字条。
; F( n  d" h7 a) ^9 D/ O2 Z2 ~     如果汉字没有字条而仮名有字条,为了正确的发音,这边不会使用仮名的字条。
7 g; ]" C4 N/ W, e
+ [6 f# e! [" W7 |$ M     如果找到了字条,则以字条本文的第一个声音档做发音。2 D9 ^/ `! Z0 A4 |. T

9 ~9 l* @( w- X; j! l. n5 ?$ i
' n2 `4 z. g( d! f9 R& u3. 如果都找不到,则会使用TTS做发音(要设定TTS为日语)
1 n. t: u. U5 Y. j
- W; E$ ^8 o3 {' w) W-----------------------------------------
& Q+ N. J8 t7 M% H/ S6 Z
* f$ }. h9 m$ n. H* q* y感觉是使用"NHK 日本语発音アックセント辞典",会较精准。
* C2 G/ P  j. {: d: n( l% b但不能确定,因为我没有实际去做比较。 (有可能Sound_ja.mdd收录的汉字或仮名字条较多)& z9 K: ^6 c* W$ a. C
如果有"NHK"字典,可以移除Sound_ja.mdd,则会以"NHK"字典为主做发音。
- b% c8 k# p0 E; X3 r7 ~- K( J' ~0 o7 L3 g$ {# H

" g3 D# h  M: i. B9 P/ ]但有时候有些汉字的字条,有很多不同的发音,可能在"NHK"字典里本文的第二个或第三个声音档。/ F  p5 [9 t! [9 E
所以当发出不是认为的发音,可以去"NHK"字典做确认。
: O# R) U' f( i" l' a: M9 F9 ~1 d7 O% L# G" ~, ~
例如:
0 X5 e; t  X: v. ]+ {# |# v9 O紅葉 こうよう
+ C( h* L2 i( @# }" [  b" m, g紅葉 もみじ

7 t/ B& G4 }- x. S, e-----------------------------------------
# q! Q- n. D* Z2 G9 |: o& ?- \; B) \$ w* J- p, e) X
因为EBDic会根据字典作分析,所以是写在code里,
& [; S& I7 r+ _: |9 B$ a  d目前已分析的字典有:: x2 a3 q' s3 _& R2 q; k# g6 q4 ^3 y& _% i
8 Z- y( d: M: d
小学館「中日/日中辞典」統合版 % F$ \0 p& J5 f0 Q
広辞苑第六版1 h+ [0 k9 ~/ {* k& K
三省堂 スーパー大辞林
8 |- a6 S- k5 N7 {新明解国語辞典 第五版4 i. h. W  |# a3 B7 j
学研国語大辞典  y" R8 T# z/ X  _
学研漢和大辞典
. d$ t' I# v# k3 ?' E5 |  c講談社日中' `% f9 a& g. y9 t6 J# L/ ?1 V
大辞泉
- @2 A# S; Y% u国語大辞典
% v$ K' a1 ~: ]$ P& B7 @% ^明鏡国語辞典
5 c" C: Z, @& u
# ^2 ~1 Q. ?7 j$ p! D
其实,目前的分析只做了一部份。! G$ `! d% ~, }- z7 a
有些汉字的表示法,可以有不同方式:: s4 E* Q6 m+ I3 v* W' b" G) H
例如:2 q' b) \  U6 P& y
掛かる,掛(か)る
# X5 {. T5 B  W2 @0 O! J6 P# I如果是"掛(か)る",则会去掉(),汉字的部份变成"掛る",在"NHK"是会找不到结果。0 U, V: k0 n5 `

0 {5 I* [1 t7 H* Y" iEBDic目前也只以第一个汉字为主:5 H4 ~& b/ t# h* ]
例如:3 `1 I0 s3 n. ]& t
はな【花・華】
, p4 ^$ w) g* Z: M1 J" N3 ]- v& @9 q- n, L0 F0 _
会以"花"为作为汉字。; A* n2 U, H/ `

# ^- E% e9 ?0 w+ P; W6 ]6 E0 r' c; s
另外如Wiki字典,比较像是百科字典,所以也没有考虑做为分析的字典。
" D. `& B& Z; o$ eEBDic的汉字分析,也应用在手势的Exact Search或查询语的search,以及切换字典时的"跳至相同字条"上。/ j/ ^( m, [4 ?4 @
----------------------------------------
. }0 d5 S( q" j; t2 c8 r; @! g; [$ N' ]8 m. S9 k6 O& k" k) K$ h
如果有发现字典的字条,没有正确的发音,
2 ]6 a( L# t, j9 R+ C如不是因为汉字的表示法不同,! f0 S" L: }& a: f5 P2 n3 `
可以告诉我,字典的ID及字条的格式。; ^3 g: Q2 B. t
(有些字典,真的会加一些自订的符号。目前主要是以NHK字典查询的方法)
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-3 16:17:05 来自手机 | 显示全部楼层
    感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上都无法发音,感觉是跟原始发音文件有关。等下次遇到了做个记录,看看跟压缩版与否由于关系。

    该用户从未签到

     楼主| 发表于 2016-8-3 17:20:11 | 显示全部楼层
    liuyunrushui 发表于 2016-8-3 16:17
    & ]; G- |. n. o6 k感谢E大详细解释EBDIC处理发音的方式。我用的是NHK。平时在使用的过程中发现有个别词条在ebwin以及ebdic上 ...
    9 s. E5 z9 z; `+ L# V2 @# y
    有个别词条无法发音,是很特殊的例子。
    . l: M9 v8 m! w5 ]; s大部份好像都是整个NHK声音数据都无法发音,
    2 H, {' s: O3 O; J6 I好像主要是跟手机硬体有关,0 W- ^, R, W& W0 ~8 Q
    我早期使用samsung的手机,都无法发音。那时候有做一个版本,将音频转成mp3。% ~& _' C) h# [9 z( D5 i
    现在使用的手机就没有这个问题。
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-8-5 11:57:43 | 显示全部楼层
    ebdic 发表于 2016-8-3 17:20
    5 L% j1 _% P4 k* h# H有个别词条无法发音,是很特殊的例子。
    4 n1 |$ k4 a4 h  |4 a7 k* \大部份好像都是整个NHK声音数据都无法发音,
    , u: K) ^  N2 g1 r/ ]好像主要是跟手机 ...
    + Q7 K, ^+ Y# C* a: m
    多谢E大回复!1 l* U& g9 y! c6 E1 `

    0 _! Y8 g7 Q) w3 n( p0 r想来应该如E大所言,跟手机系统以及原发音文件有关。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-20 03:46 , Processed in 0.020528 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表