掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2926|回复: 13

[求助] 求思路:如何利用提取的词典例句mp3或wav文件?衷心感谢

[复制链接]

该用户从未签到

发表于 2016-4-26 22:50:21 | 显示全部楼层 |阅读模式
本帖最后由 werwer 于 2016-4-26 23:39 编辑 ! L+ n8 `. }' N/ B, r7 }0 J! W

- E& s4 h/ _3 C! K8 N0 ]目前有LDOCE6的所有例句wav文件(dls.files.zip解压出来的),其文件名是各种数字字母编号。
- ~! f; \7 z' h5 Q* X+ }! ~* V2 E8 Y0 J' N
想根据生词本提取各个生词的所有对应例句wav,放在一个文件夹下(或者合并成一个音频)。
! D2 J+ }% J2 P9 v( B6 F
) b+ M" [: R& {4 g4 ]+ x+ r比如,生词本中有endemic endorsement endow endurance energize engaging 等单词,现在想要把这些单词在LDOCE6中对应的所有例句wav文件找出来放在一个文件夹下(目的是集中生词例句磨耳朵),该如何做呢?
& b+ t0 ^  O9 s6 o) H9 f! m- f1 P. w
! S9 J1 ^$ T: a, n5 n在论坛上看了很久,目前想到的笨方法是:
; J# x) _$ l/ Q4 M4 j% @
5 ~$ i7 M5 j1 j8 |2 O& S分析LDOCE6的dsl文件,利用正则表达式,找到各词条包括的所有例句文件名,例如exa_p008-000910116.wav,exa_p008-001662168.wav。建立一张单词与所有例句文件名的对应表格,然而根据表格内容提取对应wav文件?
- F6 f/ q6 ^/ y/ q- ?! d( R, n. l4 S& g1 R8 _
这个方法太麻烦了,而且想了半天,需要的正则表达式也很复杂,写不出来,而且很难方便地提取所有的音频文件名。
9 V7 Z  W' v. u6 N9 a" O
% B& o4 \# p+ |/ l  V如何能生成一个新的文件,包括:
! f( r, w5 r: \$ g# ~' H; S8 x" C9 N5 ?; U* D* @
单词1
6 \% s6 {' U0 \! m  j" ?6 P5 o 例句wav文件名1,文本1,1 d+ g5 n# W- }5 `" B- Z
例句wav文件名2,文本2,7 o) [- O6 [3 N/ B( @0 c; X3 A
. N" H% V6 k8 V7 c: [3 I6 N: p
单词2   r, p. G! Q; V0 a' O* E6 y! M8 R
例句wav文件名1,文本1,
' ]" E* K& P  N* {( T, b 例句wav文件名2,文本2,3 h: L/ S& H7 m6 \9 e8 M
... ...
; a/ Z9 E+ ^% s7 E& k7 F% B5 R0 p; }
求指点思路,衷心感谢!

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-4-28 03:45:25 | 显示全部楼层
本帖最后由 LYX1692 于 2016-4-28 06:20 编辑
: {+ j9 b, ^9 y8 w9 c/ l' c9 U& q0 i! U

9 h- u; u+ m$ Q) F( P
1 o) G4 J3 r" n8 ^* }2 `. h5 q, l楼主这个问题,我以前也想过,我的解决方案就是,换工具。
# y. `" G3 M+ A4 O, e: i我一直想有这么一个工具,它可以很方便的找到带音频的句子,然后可以很方便的导入、导出,可以有针对性的训练自己对某个词的听力能力或者发音纠正。
; d! n8 E, L% e3 ]' d; C& @9 A可能是在两年前,我跟Aboboo的开发者联系过一次,然后,在一年前,它们的最新版总算加入类似的功能。
5 f+ m" p. q+ O0 g% i; X- I! Y/ V- ]2 O- u- z6 y* C' G& d
不管你有多少例句,你都可以批量导入句库。. x! ^8 l3 M2 @9 U3 ?+ r! R
我曾经试验过一个12万的例句发音库,参见:
2 }  g5 o5 g/ Ghttps://www.pdawiki.com/forum/fo ... id=13606&extra=
- J- M5 M5 `' ~0 |0 w0 v9 O8 B# W( m" j6 ?9 h% E( W1 M/ I
优点是:
2 G4 b7 @) R) J- v+ _9 T1 导入方便快速。我那12万句好像不超过1个小时就建好了。当然,如果你是wav格式,可能要慢一点,因为它需要自动转换为mp3格式。' l1 K0 Q) H! p% w9 y: e2 a
2 批量导入,可以查看它的说明。我记得是这样的,用txt文档,每个音频,第1行是存放地址,然后是英文、中文、备注、甚至可以插图。只要预先设置好音频和对应的文本即可。
: U* B9 @3 u$ O: n: O( F0 V+ g6 R! ~3 只要导入的时候,你依照它的格式加了了文本,日后你可以随时查找(支持正则)- ^5 B7 M: G# R! ]5 [2 ^
4 查找结果秒显。我那12万的例句,哪怕查找the这样的极高频词,也没多少延迟。, g' i7 m7 j0 `3 ^. i. v
5 查找之后,可以即时播放音频。
4 B9 U1 c2 a, `: L* a6 查找结果可以导出。也就是说,你可以将所有包括 have 的发音重新导出为1个mp3,而且支持导出LRC歌词。如果是PC上,你也不必导出,你想针对哪个单词,直接查找播放就可。想放手机,你就将结果导出下,自动生成带歌词的MP3。都有同步盘吧,分分钟就同步到手机上了。只要批量导入的时候设计好,导出的时候,你想带原文就带原文,想带中文翻译就带翻译。
+ D/ K6 Z/ a9 W8 y& u( ]7 句库可以随时添加。比如说,我时不时将我听VOA、有声书、音乐、电影的音频加入进去。反正我就是这样,只要是跟英语视听相关的学习,都这样。看电影,某台词有听力障碍,一键添加句库,过段时间再来复习下。软件本身还有听写功能,以前设置好文本,复习的时候听写,及时发现问题。
' e! J7 {# S7 j5 q1 [4 G2 k% m8 导入的发音库,可以随时修改。比如说,我先前导入过一段材料,后来发现文本有误,可以随时修改。或者,我自己想要添加点关于这段听力的笔记(某词我怎么老听不出来啊),也可随时加入备注。+ S5 p, l( X1 {  X( e8 T) G

2 u+ v2 l$ Z0 c: aPS. aboboo本身就是专门为了听说训练而设计的,添加句库实在方便,比如我看一部电影,它本身就支持视频格式,自动断句,也可以根据LRC歌词或者SRT等字幕文件来断句,你想保存哪句,点下就可以了。如果是电影,它可以自动保存该句音频,还能自动截图。看电影的时候,建议下载不带字幕的版本,另行寻找外挂字幕作为参考或者断句依据,可以选择隐藏字幕,某台词听不出来,反复听,听到吐都行,然后显示字幕查看下,印象极深。我就是这么折磨的。
$ e& t; |' ^/ F- H$ L* S/ a+ u, D0 l2 ^
请看,这是我以前看《冰雪奇缘》时弄的。1 w' B' u; }) y- R% w. Z. r
; b1 \7 ?8 X" }
过程并不复杂,只不过是要找到一个准确的好的字幕文件,然后想要保留哪段台词就保留哪段。& x* l8 `# Y% ]7 W9 z4 e
(只不过有些字幕时间轴不太精确(比如说人物台词还没说完,字幕就已经消失,或者人物已经以说下段台词,字幕还保留在上段台词),或者台词分段不严谨,比如说,有时候一段很长的台词,字幕组出于显示效果,可能会分成两段。那么,自己做句库的时候,就最好将一个完整意思的句子保存为一段。这种情况下,需要自己手动调整些。)
! K7 E( H8 R" S
$ V( K* v. s6 A' I- H6 p5 @* y  S3 r/ z
当然,Aboboo也并不完全接近我的设想。
, P/ H5 Z* a3 D( l比如说,我希望他们开放下词典格式,让我自己来编辑自己想要的词典。' j1 m) X% J8 q6 Y2 W& l
比如说,现在虽然可以直接看视频,但是还不能保存视频片段,只能保存音轨。! X  @# w3 x* ?
比如说,我希望他们可以跨句库搜索,可以实现句库转移。你就算有几十万的例句库,想以此来磨耳朵也是不实现的。难道打算一句句听吗?mdx固然可以以单词为索引,可是,别忘了,更多时候我们也不是某个单词发音完全辨别不出来,而是换了种语调我们就没反应过来了。我就记得以前有一次,听某首歌,里面有个单词我死活听不出,后来一看,居然是beautiful。我就觉得,我需要强化下某些词在特殊场合下的发音辨别能力。又如某些特殊口音的发音,如《生活大爆炸》里拉杰什的印度口音英语。有些句子,换个标准英语的人来说我就知道,他一说我就得看字幕。纯单词索引对于磨耳朵并不靠谱,标准英语朗读你听得懂,未必其他语境你就听得清。如果可以将现在语音库重新筛选下就好。比如说,某个句子很好,或者说某个句子我听力有困难,如果可以跨句库转移的话,我就可以这些句库中的句子重新筛选下,添加到另一个句库保留起来,再专门训练。可是目前这个版本还做不到。我只能先将这些句子从一个句库中导出,再激活另一个句库,再导入。
0 v+ i2 l* X6 e  {, {6 B0 V' k- _1 t  h/ }+ d+ ~+ L
这些我也跟开发者谈过。但是,他们也是免费软件,据他们说是否开放格式,要看以后。
! S  I) n$ E; R至于我说的跨句库,他们也想过,但是碰到了某些困难,也没在最新的版本的实现。0 |( }1 ~, F8 U. Z

) O6 o( H' B/ \. d
6 n! D  X  m- ^/ k' ^% O. G总的来说:; t% w% n2 g0 v( g
我觉得,你想实现的,真的不适合用MDX格式来做。2 n' w4 E- f1 }* {. I" k
可以尝试,技术上也可以实现,用python可以。不会的话,用正则也行。只不过是将句子编号,然后将每个句子里的单词跟句子编号联系起来,最后重新整理下。3 L- z( H4 U( S' F& M9 y" l
就像你发现的那样,麻烦!
# C* E* Z( O' C: [0 P+ v, y我曾经想将朗文、牛津、剑桥、柯林斯的所有例句文本以单词为索引弄一个MDX,也想以此为材料弄个汉英MDX,后来烂尾了。
7 |& W, s9 B! f) O并非技术上我做不到,而是我发现,换个合适的工具,我压根不需要如此麻烦,而且效果更佳。(https://www.pdawiki.com/forum/fo ... id=11546&extra=
( q$ `1 J$ g5 A  I" e7 l$ NGoldenDict虽然也有比Mdict更好的全文索引,但我也不采用。为什么?因为它用作全文索引的数据是死的,而我一开始就打算将我读过的任何有价值的中英材料不时添加进去。
: [3 |# n! }3 B+ J我实在不想每次改动一下就重新编译一次。
( u2 r7 y7 d+ F* R& eMdx确实很好,但它不是适合外语学习的所有环节。
. R! ]$ ^# `! K. M, Z4 [索引、音频都不是MDX的强项。2 g. D  J$ w; P' o
做出来之后,效果未必如你所愿。$ j7 s+ T8 o2 G: M5 J, w/ N
有些单词可能有成百上千个音频例句,你想磨耳朵,难道你一个个去点击播放吗?
: k: j" n0 t  N: ]7 E% N5 N4 s3 |就算不嫌麻烦,那么,磨耳朵的时候,是显示文本还是不显示。显示文本没效果,不显示文本不知道对错。也许加个Javascript可以实现选择显示/隐藏效果。但总是麻烦
& l7 A. S9 Y( K4 B/ w2 U* h$ ]' k而且,你这些例句不管数量多么丰富,总是一个类型的,语调单一,语速单一,要磨耳朵,就得有不同的类型,而MDX在添加词条方面是死的,你不可能随时更新。
8 \; z) @" j+ ^4 j, b- t$ b如果使用Aboboo的话,可以省掉很多麻烦,你不需要针对每个单词去建立索引条,也不需要一个个点击播放。8 \7 c# k# @9 U# V, d: q
也可以将查找结果一键导出,生成一个带歌词的MP3,同步到手机。
/ U/ u4 i, m' Q3 z3 j- [/ C  {而且句库可以随时更新,电影段落、音乐段落、有声书、英语广播。况且磨耳朵的话,光听标准英语并没有多好,有时你能听懂一句印度英语甚至日本人的英语,对你的听力更有帮助。而Aboboo的好处就是,我可以很方便地将任何发声的英文都添加进去。' i4 R) H* A+ J8 |3 c

2 K) e' `+ u! C8 }- M! n5 @2 b8 H4 u我之所有反复说Aboboo的优势,不是打广告,而是我跟你一样,也这么尝试过,但是发现过程麻烦,最终效果差强人意。
/ t! E# M% o! B1 v6 {8 C- D  B& M5 V听说读写,Mdict和FileLocator对我“读写”的帮助最大,Aboboo对我“听说”的帮助最大。
1 f" k& o* m, F6 ^. t换个工具,很多问题都解决了。
) t2 o: o; a3 ~1 h" j我一直对这三个工具很偏爱。! b, i7 B0 e+ B/ s
2 i+ ~' t$ v% v
以上就是我的经验,供参考。
( f" ^  C* l0 E

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-4-26 23:14:40 | 显示全部楼层
本帖最后由 werwer 于 2016-4-26 23:18 编辑
3 c" g( P9 P! I& P" y5 Z3 z: r" E
. k) O8 B: d: v. I5 F: x, r' N7 T例如bleed这个词条,可以看到通过正则表达式查询到的wav例句文件名,以后跟着的例句文本,但是如何能把这些信息单独方便地提出来呢- ~+ }. l" e  o* N

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-4-27 19:45:13 | 显示全部楼层

  V' C  X. H" \+ o1. 置顶的Dict Source Editor
! q9 D+ f0 d% d) l7 D# d9 e5 m. z, _
Export-Custom可以按照自己的需求导出指定的词条文本。例如只导出自己需要的某些词条,或者不导出某些词条。只需将你需要导出的词条保存到一个文本文件,每个词条一行,然后指定这个文件即可。
! j4 C+ j; N4 X. d  ?
" d; D% S6 B2 ^  f, J/ S" M* `

5 P- p3 ]) v, b2. 利用正则表达式,找到各词条包括的所有例句文件名

该用户从未签到

发表于 2016-4-27 20:11:29 | 显示全部楼层

该用户从未签到

 楼主| 发表于 2016-4-28 09:36:29 | 显示全部楼层
sky66 发表于 2016-4-27 19:45- s& b: P1 }  K. u7 t/ }% [( M7 a
1. 置顶的Dict Source Editor
: T6 I' d7 a. `. {8 D
1. 看到了置顶的Dict Source Editor,有些启发,很好的软件。但这个好像不适合整理例句音频,就是Export-Custom到出的是词条,不是词条例句的集合。我再仔细研究一下。/ n5 R& X9 N. \6 Z
( m: n3 O( i1 w
2。正在学正则表达式。
0 W. v6 w* [2 k$ z5 B5 B6 g
# Z' H1 A; L' E谢谢帮助!

该用户从未签到

 楼主| 发表于 2016-4-28 09:38:13 | 显示全部楼层
vbnet 发表于 2016-4-27 20:11
$ g( D; K: _: M* A像这个* T5 `# a, k) D
[英-汉] 【背词典】朗文发音库整理 20140902 更新内容:单词例句已按照纸版顺序排好
2 `/ j1 }1 t) Z- j% t5 G3 e
看到了这个帖子,很牛!7 w: h/ S! d' X! L8 D8 p( b, x9 B
  |6 E2 T% U7 |3 c
只是这里没有讨论,如何把几十万mp3重新整理命名的,好想知道。$ y8 Z" M# W! n& W1 l7 q

  D! q$ V3 D1 _4 M9 e# q# X谢谢帮助!

该用户从未签到

 楼主| 发表于 2016-4-28 10:06:13 | 显示全部楼层
LYX1692 发表于 2016-4-28 03:45, \0 ^/ o, l" E7 T
楼主这个问题,我以前也想过,我的解决方案就是,换工具。1 P) {5 A& c6 b$ Z5 ]
我一直想有这么一个工具,它可以很方便的找 ...

! |5 t; }1 C0 d) E特别感谢LYX1692的建议,读了几遍,受益匪浅。
! d4 g( z& ]7 A; s7 Z, {% Y7 g1 O  a* \  w* B' a3 r0 ^) n  g8 ]
之前集中查资料时,也看到了你做的12万语音库的帖子。当时就觉得,我所想到的,很可能已经都被你想到且实践过了。
+ B1 b, W; y+ g; J
, h: u% j* u: x, D事实证明,也的确如此。4 I: E  l& x. c  V2 F, r  F# R

) @. f  f9 h5 y9 H) ^敢想敢做,思路清晰,还乐于分享,赞!!: k6 V2 y4 p; p2 I: M; p

% V8 t/ G3 Q, j' g+ q昨天学习了简单的正则,试着从html、txt等原始文件中整理出词条、音频文件名和句子文本,建立对应关系。
  m! a% {2 z. H/ }1 H
" |& T, S5 T7 {的确,个人精力太有限,借助已有工具是最明智的方法。思考过后,完全接受LYX1692的建议。* H9 a" s) N& v/ ^
. {& i" R4 R8 R$ A) [
最后,再次衷心感谢你的谆谆教导,感谢分享精神。- u2 O2 y4 ]  W7 `

该用户从未签到

发表于 2016-4-28 11:41:28 | 显示全部楼层
本帖最后由 LYX1692 于 2016-4-28 11:57 编辑 : B4 Q+ R5 L; T3 E& k
werwer 发表于 2016-4-28 10:063 L7 D3 J5 z5 x$ L- m
特别感谢LYX1692的建议,读了几遍,受益匪浅。3 w$ i7 i! Q3 l) G+ e  @
. P: z2 x$ _! p$ C
之前集中查资料时,也看到了你做的12万语音库的帖子。 ...
0 u9 o1 O: f$ g6 x

" d$ Y9 J! ~$ o0 |$ M- j5 S: o我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易操作了。
* ^' T4 Y/ I9 B6 R+ n一个句子用6行来表示:
6 p" I; E* b$ s" q4 ~, e第1行:句子的音频文件地址(必须)) |" P9 O' i% H5 ?2 F) G
第2行:英文(可空,但是由于你要搜索,那还是必须的)
4 Q, ^6 y9 [( p; A0 [第3行:中文(可空)& h  `& Z6 W. [
第4行:中心词(可空)0 I  I* M# F0 s4 _/ U& a
第5行:备注(可空,可能你以后还会从其他来源添加例句,备注下出处还是有必要的)
8 |. W) O+ P2 b第6行:描述句子的图片地址(可空)' q' ~" g( S, a* A* n; `

- h* R9 R; e5 G( }你可建立多个句库,但是目前只能同时激活一个句库。  u  R  P$ O8 K, o! d& b% X
两种方式查找:
, n3 b: k8 C& U; O1 r1 “我的”-“句库”下方有搜索框,但不支持正则查找。这个查找结果可以导出为MP3.
3 e0 g2 M0 M* D8 r' z) y4 A: L+ `' N: R2 “字典”查找单词的时候,也会出现句库里的句子,支持正则,但这个地方的结果不能导出。. N: v' _  \) K7 ^: n
+ X$ v7 K6 G: a
哦对了,我差点忘记了。
) \! Y9 m6 P0 s7 Z你现在做的一切准备工作都有可能白费功夫。做之前还是先对比下吧。" `% X9 F9 z6 v# Y" L
因为Aboboo“字典”本身官网就提供了一个15万真人语音例句,我以前对照过,发现它用的其实就是朗文例句,只是不太清楚它是哪个版本。
" H9 J, S0 V2 a4 `4 s" o2 S
# e& L0 o# w+ b. X我草草对比了下,就发现有一样的例句:0 n0 Y; c' k+ |. O
& z6 f3 J/ h' J3 ?# _- i
这是你帖子截图中的例句
9 }1 k& {3 Z7 n
! y) G6 V! q( {) ]  ~1 W) {% P/ {  B% \% G9 W- ~
这是官网自带例句库的例句9 m7 C' Y2 ^5 [# A

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-4-28 20:07:02 | 显示全部楼层
LYX1692 发表于 2016-4-28 11:41  \& D# _) l) D
我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易 ...
& f; b5 g( d! s+ O
是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。# n, V/ a# B, B: J

- Q& S7 M# i6 O- g0 n% `( sAboboo已经建立足够大的音频库了,我比较了例句后认为,Aboboo是基于LDOCE5和LDAE4的例句音频建立的。
! x8 b9 I* L. s  A- J7 u1 f& d  `6 v$ r0 C, V/ O, k- {: h  y
与老版本相比,LDOCE6和LDAE5增加了一定比例的新音频例句。
- b! S5 [9 M$ b7 J, w( X  ]3 ?7 B
Aboboo已经接近完美了,想想能建立自己的语音库,还是很开心的
# I6 B  O) U2 [* E, h5 [1 |

该用户从未签到

发表于 2016-5-15 16:29:47 | 显示全部楼层
感觉很有用,做个标记看以后能否用上

该用户从未签到

发表于 2016-5-16 00:04:43 | 显示全部楼层
werwer 发表于 2016-4-28 20:07' m. b! q3 m3 [# X
是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。( O: i$ o+ f( q! t. J

+ {+ h; M1 ?% @( N1 uAboboo已经建立足够大的音频库了,我比较了例 ...

0 O8 C" X. r/ X, FAboboo 的朗文句庫在操作上近乎完美,9 G6 x. I% c6 c, L5 l" ~' p8 r- J
但实际上还是有大小问题各一:4 U* Z3 U6 }! {! |, O
4 z: g2 V' H  ]. ~
小问题: 欠若干词(为数约三兩百,与十多万句相比,算是个較小问题。)
6 u% J) p7 R8 L7 V* ^大问题:音质比原有的差很多!
  • TA的每日心情
    开心
    2019-9-4 10:12
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-8-5 15:51:50 | 显示全部楼层
    lz搞定了没有?我用anki fast word query,可以导出每次自己学习的单词表的单词的所有例句音频,但是名字是乱的,无法管理。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-25 01:49 , Processed in 0.024724 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表