掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2922|回复: 13

[求助] 求思路:如何利用提取的词典例句mp3或wav文件?衷心感谢

[复制链接]

该用户从未签到

发表于 2016-4-26 22:50:21 | 显示全部楼层 |阅读模式
本帖最后由 werwer 于 2016-4-26 23:39 编辑
$ X# q/ s# {3 F2 n# Q3 k% b
+ h; V6 D1 ~' @5 M0 k! D6 ^# W& J8 Y目前有LDOCE6的所有例句wav文件(dls.files.zip解压出来的),其文件名是各种数字字母编号。0 b7 E/ j/ |) R, s& ~  D. f

5 e3 _: N, O+ o% Q! c( }! F- {想根据生词本提取各个生词的所有对应例句wav,放在一个文件夹下(或者合并成一个音频)。
5 ^5 I% c3 K4 P- H( M3 }: H. ?
: l6 q- f, _: @" v比如,生词本中有endemic endorsement endow endurance energize engaging 等单词,现在想要把这些单词在LDOCE6中对应的所有例句wav文件找出来放在一个文件夹下(目的是集中生词例句磨耳朵),该如何做呢?: ?+ V  Q' [5 Q2 `8 b

2 r% u2 z! \- m4 q: `  R在论坛上看了很久,目前想到的笨方法是:
$ f+ \6 ]0 U5 y; H# o. b
  K. m5 k' S; q+ i5 L0 P2 v分析LDOCE6的dsl文件,利用正则表达式,找到各词条包括的所有例句文件名,例如exa_p008-000910116.wav,exa_p008-001662168.wav。建立一张单词与所有例句文件名的对应表格,然而根据表格内容提取对应wav文件?9 T$ O: q  J1 R7 x
" W3 s2 G) X8 k
这个方法太麻烦了,而且想了半天,需要的正则表达式也很复杂,写不出来,而且很难方便地提取所有的音频文件名。) m; h$ C6 F9 B8 H( x# h& s6 h
# |" U; R# P6 f6 w2 [
如何能生成一个新的文件,包括:3 l& W, T% ^. Y, r
* i9 _( D' d; ]9 y4 D/ x# R6 U
单词1
2 ^4 e2 s# E! l( c7 F& Y! p, D5 q: L 例句wav文件名1,文本1,
  u7 Z( U8 V+ h" L$ B- o% A8 j 例句wav文件名2,文本2,: k: H+ ^2 L: @7 u' U9 j5 N

& R* A8 }  R) `+ H 单词2
4 {- o, R4 b" D3 O 例句wav文件名1,文本1,. W' X2 p: K1 B. Y# M5 q0 J8 v" d! |
例句wav文件名2,文本2,$ ^0 ^) P* ^4 e' q( @1 k& U3 _5 V4 y
... ...; Q3 ~$ ]- ?8 m+ ]- p3 `# }
4 `) \% \9 y0 g% E# b- I5 B- s
求指点思路,衷心感谢!

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-4-28 03:45:25 | 显示全部楼层
本帖最后由 LYX1692 于 2016-4-28 06:20 编辑
& t8 q8 a* v! Y% p6 }; |) a; f' X
/ Z" b6 {( @) g, G1 P# V! J! X; ~6 j. k! N4 E

" G$ E  Y$ q4 Y: C- _楼主这个问题,我以前也想过,我的解决方案就是,换工具。6 i, }; S6 @& k, D* Y1 r- N
我一直想有这么一个工具,它可以很方便的找到带音频的句子,然后可以很方便的导入、导出,可以有针对性的训练自己对某个词的听力能力或者发音纠正。
5 V! Z+ @, \% f; U6 x" U# M$ Z/ [+ P% A可能是在两年前,我跟Aboboo的开发者联系过一次,然后,在一年前,它们的最新版总算加入类似的功能。
* N/ i- }" B% Y* p, I: w$ }+ H0 C* h6 ]9 k+ ^5 I
不管你有多少例句,你都可以批量导入句库。
9 o1 K/ v/ E) _5 B6 V我曾经试验过一个12万的例句发音库,参见:
$ ~4 x: q0 H  K" r! ?+ chttps://www.pdawiki.com/forum/fo ... id=13606&extra=
: h1 P7 K: ^# H# m# J  y: _. |2 d" a9 z6 @8 S1 ], Y7 F
优点是:
8 K" E/ X5 _) X! z* n1 导入方便快速。我那12万句好像不超过1个小时就建好了。当然,如果你是wav格式,可能要慢一点,因为它需要自动转换为mp3格式。
# x  L) L- d0 Z& u" O0 o* N2 批量导入,可以查看它的说明。我记得是这样的,用txt文档,每个音频,第1行是存放地址,然后是英文、中文、备注、甚至可以插图。只要预先设置好音频和对应的文本即可。
/ r5 W5 Z! ^7 m5 i/ _7 {  e7 V; ~3 只要导入的时候,你依照它的格式加了了文本,日后你可以随时查找(支持正则)
' F! t- [8 M+ r! V, J& [$ G2 T7 V4 查找结果秒显。我那12万的例句,哪怕查找the这样的极高频词,也没多少延迟。
* I  a# e! c9 y% ?% e$ ]7 t+ O3 {( a5 查找之后,可以即时播放音频。
2 r4 d) \- g3 n% e/ x6 查找结果可以导出。也就是说,你可以将所有包括 have 的发音重新导出为1个mp3,而且支持导出LRC歌词。如果是PC上,你也不必导出,你想针对哪个单词,直接查找播放就可。想放手机,你就将结果导出下,自动生成带歌词的MP3。都有同步盘吧,分分钟就同步到手机上了。只要批量导入的时候设计好,导出的时候,你想带原文就带原文,想带中文翻译就带翻译。
3 W% U$ o# d! Q# W& k; r7 句库可以随时添加。比如说,我时不时将我听VOA、有声书、音乐、电影的音频加入进去。反正我就是这样,只要是跟英语视听相关的学习,都这样。看电影,某台词有听力障碍,一键添加句库,过段时间再来复习下。软件本身还有听写功能,以前设置好文本,复习的时候听写,及时发现问题。
: r  O+ R; a$ N. P. ]4 q- U8 导入的发音库,可以随时修改。比如说,我先前导入过一段材料,后来发现文本有误,可以随时修改。或者,我自己想要添加点关于这段听力的笔记(某词我怎么老听不出来啊),也可随时加入备注。
' A9 u5 c7 W- p. f/ \2 Z8 y5 u( ~$ I4 i- h6 Q! V& S
PS. aboboo本身就是专门为了听说训练而设计的,添加句库实在方便,比如我看一部电影,它本身就支持视频格式,自动断句,也可以根据LRC歌词或者SRT等字幕文件来断句,你想保存哪句,点下就可以了。如果是电影,它可以自动保存该句音频,还能自动截图。看电影的时候,建议下载不带字幕的版本,另行寻找外挂字幕作为参考或者断句依据,可以选择隐藏字幕,某台词听不出来,反复听,听到吐都行,然后显示字幕查看下,印象极深。我就是这么折磨的。' _" d% U# Z* D. I' a$ w
$ W- Y: F- w* I2 G/ y8 c/ S3 f
请看,这是我以前看《冰雪奇缘》时弄的。
) ^6 m# A/ W0 [% e/ B1 i
: u0 p0 |+ `/ A9 B! r( z1 S8 q/ B1 |过程并不复杂,只不过是要找到一个准确的好的字幕文件,然后想要保留哪段台词就保留哪段。
$ K) g/ H9 s! b(只不过有些字幕时间轴不太精确(比如说人物台词还没说完,字幕就已经消失,或者人物已经以说下段台词,字幕还保留在上段台词),或者台词分段不严谨,比如说,有时候一段很长的台词,字幕组出于显示效果,可能会分成两段。那么,自己做句库的时候,就最好将一个完整意思的句子保存为一段。这种情况下,需要自己手动调整些。)5 h6 V  f) J' w& ^& ~1 ?! O
! ~6 }0 j5 N+ {; V5 \& ~
# x7 ~5 Z+ L0 g; F4 W6 C8 T
当然,Aboboo也并不完全接近我的设想。; {4 M# ]: C. n# L
比如说,我希望他们开放下词典格式,让我自己来编辑自己想要的词典。
1 i6 x" y" `* D) _9 ^5 G; |4 E比如说,现在虽然可以直接看视频,但是还不能保存视频片段,只能保存音轨。! r  p" `3 B  g6 D- C
比如说,我希望他们可以跨句库搜索,可以实现句库转移。你就算有几十万的例句库,想以此来磨耳朵也是不实现的。难道打算一句句听吗?mdx固然可以以单词为索引,可是,别忘了,更多时候我们也不是某个单词发音完全辨别不出来,而是换了种语调我们就没反应过来了。我就记得以前有一次,听某首歌,里面有个单词我死活听不出,后来一看,居然是beautiful。我就觉得,我需要强化下某些词在特殊场合下的发音辨别能力。又如某些特殊口音的发音,如《生活大爆炸》里拉杰什的印度口音英语。有些句子,换个标准英语的人来说我就知道,他一说我就得看字幕。纯单词索引对于磨耳朵并不靠谱,标准英语朗读你听得懂,未必其他语境你就听得清。如果可以将现在语音库重新筛选下就好。比如说,某个句子很好,或者说某个句子我听力有困难,如果可以跨句库转移的话,我就可以这些句库中的句子重新筛选下,添加到另一个句库保留起来,再专门训练。可是目前这个版本还做不到。我只能先将这些句子从一个句库中导出,再激活另一个句库,再导入。  W- R( _$ d7 }/ K

2 ?. l$ v; y9 g这些我也跟开发者谈过。但是,他们也是免费软件,据他们说是否开放格式,要看以后。
3 p$ e% ]/ G* `至于我说的跨句库,他们也想过,但是碰到了某些困难,也没在最新的版本的实现。
; ?! ]7 i4 ~# N6 @" P8 Q2 `" A0 ?+ ]

2 `' m+ g( _/ B- D. K9 S* R总的来说:
. y! o2 _) p6 H6 u  q0 w我觉得,你想实现的,真的不适合用MDX格式来做。# h' M1 r1 s7 v0 I; w' j# T  @
可以尝试,技术上也可以实现,用python可以。不会的话,用正则也行。只不过是将句子编号,然后将每个句子里的单词跟句子编号联系起来,最后重新整理下。! o0 r# V3 k, V0 d6 G  @
就像你发现的那样,麻烦!
6 i9 B1 N0 s5 p! F" u0 @我曾经想将朗文、牛津、剑桥、柯林斯的所有例句文本以单词为索引弄一个MDX,也想以此为材料弄个汉英MDX,后来烂尾了。
/ F) d7 @, Q8 z. P7 D并非技术上我做不到,而是我发现,换个合适的工具,我压根不需要如此麻烦,而且效果更佳。(https://www.pdawiki.com/forum/fo ... id=11546&extra=1 n5 `, y! b# k( h# ]) G* N7 V- `
GoldenDict虽然也有比Mdict更好的全文索引,但我也不采用。为什么?因为它用作全文索引的数据是死的,而我一开始就打算将我读过的任何有价值的中英材料不时添加进去。1 Z6 L( ]  @8 u) F
我实在不想每次改动一下就重新编译一次。
6 L8 _$ z/ N7 z6 [$ N( x% {/ iMdx确实很好,但它不是适合外语学习的所有环节。
9 h' k9 G- C4 n" Y) ?索引、音频都不是MDX的强项。. }* P0 W) c: x. T
做出来之后,效果未必如你所愿。8 h: {6 k2 E: u* J* o
有些单词可能有成百上千个音频例句,你想磨耳朵,难道你一个个去点击播放吗?$ ]) H4 t  A8 @& P8 p
就算不嫌麻烦,那么,磨耳朵的时候,是显示文本还是不显示。显示文本没效果,不显示文本不知道对错。也许加个Javascript可以实现选择显示/隐藏效果。但总是麻烦
$ {3 R8 E" Y! Q) |: ]而且,你这些例句不管数量多么丰富,总是一个类型的,语调单一,语速单一,要磨耳朵,就得有不同的类型,而MDX在添加词条方面是死的,你不可能随时更新。& {8 X; e6 D8 I
如果使用Aboboo的话,可以省掉很多麻烦,你不需要针对每个单词去建立索引条,也不需要一个个点击播放。
: s$ f& k0 Y) H6 W' Y也可以将查找结果一键导出,生成一个带歌词的MP3,同步到手机。
, o' _$ C1 y: `6 n! _* B而且句库可以随时更新,电影段落、音乐段落、有声书、英语广播。况且磨耳朵的话,光听标准英语并没有多好,有时你能听懂一句印度英语甚至日本人的英语,对你的听力更有帮助。而Aboboo的好处就是,我可以很方便地将任何发声的英文都添加进去。# q& N) B5 K. M9 v! A* i
; u$ `" I! B" D# P0 C* b/ g
我之所有反复说Aboboo的优势,不是打广告,而是我跟你一样,也这么尝试过,但是发现过程麻烦,最终效果差强人意。
" r" w# k0 C7 N听说读写,Mdict和FileLocator对我“读写”的帮助最大,Aboboo对我“听说”的帮助最大。/ {8 W& Q8 u  F& u- v7 a
换个工具,很多问题都解决了。
5 S0 E2 d. }. @我一直对这三个工具很偏爱。
& A) ]" ~  H  Z* G# D9 i, _: V5 b4 f  L/ M! f. z2 X
以上就是我的经验,供参考。
$ r5 @5 M5 M  [0 M" ]# m' N

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-4-26 23:14:40 | 显示全部楼层
本帖最后由 werwer 于 2016-4-26 23:18 编辑 % ~. q' C! T* M, @# C1 x
# w$ j9 {8 v; t
例如bleed这个词条,可以看到通过正则表达式查询到的wav例句文件名,以后跟着的例句文本,但是如何能把这些信息单独方便地提出来呢  o  U( R, h& S0 M  l

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2016-4-27 19:45:13 | 显示全部楼层
7 h- V% A' v: K5 a& G, c, H
1. 置顶的Dict Source Editor
% c: R) o% ~! b% f) z$ W  N! Z8 C2 M' j4 ^( K( \& o$ u; B
Export-Custom可以按照自己的需求导出指定的词条文本。例如只导出自己需要的某些词条,或者不导出某些词条。只需将你需要导出的词条保存到一个文本文件,每个词条一行,然后指定这个文件即可。

! m" A% k5 |3 O
  X# ]1 A3 D$ b  S# F8 f+ F2 y2 `0 t& G6 a: x
2. 利用正则表达式,找到各词条包括的所有例句文件名

该用户从未签到

发表于 2016-4-27 20:11:29 | 显示全部楼层

该用户从未签到

 楼主| 发表于 2016-4-28 09:36:29 | 显示全部楼层
sky66 发表于 2016-4-27 19:45. e, U4 g! V- l+ w. y
1. 置顶的Dict Source Editor
# J* d" T- R/ Q  r
1. 看到了置顶的Dict Source Editor,有些启发,很好的软件。但这个好像不适合整理例句音频,就是Export-Custom到出的是词条,不是词条例句的集合。我再仔细研究一下。
; n0 P* S& |* H) \1 t  v
( ^0 K/ l7 B, W5 y; d2 N) D8 ^2。正在学正则表达式。9 h. ^( j( _) P* r7 L1 Q& R- o, M- c* I
8 {. A# G  n: n% [" d. u
谢谢帮助!

该用户从未签到

 楼主| 发表于 2016-4-28 09:38:13 | 显示全部楼层
vbnet 发表于 2016-4-27 20:11& n" Q! c5 ?' Y$ J$ F) x0 e, k
像这个
6 }* H- Q, V/ n% e) W2 n [英-汉] 【背词典】朗文发音库整理 20140902 更新内容:单词例句已按照纸版顺序排好
1 w& W, f6 Z4 `& l
看到了这个帖子,很牛!- Q) r$ E0 q6 U' O
. p0 B& f9 R/ Z* P7 w4 e; c
只是这里没有讨论,如何把几十万mp3重新整理命名的,好想知道。
' g& f3 N2 b: \1 E. B& o( E' F2 l4 }! M" D/ A, ~
谢谢帮助!

该用户从未签到

 楼主| 发表于 2016-4-28 10:06:13 | 显示全部楼层
LYX1692 发表于 2016-4-28 03:45: s, s) r. T3 N, I9 D) m  F
楼主这个问题,我以前也想过,我的解决方案就是,换工具。; {6 q4 M9 f. _! m! ?" f1 g1 d
我一直想有这么一个工具,它可以很方便的找 ...
6 _* ]+ h4 y5 M7 l1 }& n( \0 h
特别感谢LYX1692的建议,读了几遍,受益匪浅。
" b; v8 f7 q5 s  {. ?$ ^
' O2 c1 c: a5 l; }, ?之前集中查资料时,也看到了你做的12万语音库的帖子。当时就觉得,我所想到的,很可能已经都被你想到且实践过了。
5 ~4 }: @) F! p, L' K$ E4 i0 B% O0 y* e& V
事实证明,也的确如此。/ ~$ ^0 Z- x5 @! r% P  f/ i/ w
% Z) g. V. R: y' J; I
敢想敢做,思路清晰,还乐于分享,赞!!' t: W; J& f8 ^% w

+ u6 i4 ]% v8 s/ q; q$ G昨天学习了简单的正则,试着从html、txt等原始文件中整理出词条、音频文件名和句子文本,建立对应关系。
/ H7 r7 ]& d, L5 N- D: z* P& I( X0 g
的确,个人精力太有限,借助已有工具是最明智的方法。思考过后,完全接受LYX1692的建议。3 _/ ~* t0 l# N# M; y

8 c  |4 P' {3 p最后,再次衷心感谢你的谆谆教导,感谢分享精神。( k8 W. S  q6 a- c, X" c

该用户从未签到

发表于 2016-4-28 11:41:28 | 显示全部楼层
本帖最后由 LYX1692 于 2016-4-28 11:57 编辑
2 w5 T$ o. N7 Z
werwer 发表于 2016-4-28 10:064 S/ Z8 j0 q8 n- i- B/ n0 B- u
特别感谢LYX1692的建议,读了几遍,受益匪浅。
$ J; I, W6 i  e5 G
( p5 S( c8 Y5 m3 r' Q2 T3 h之前集中查资料时,也看到了你做的12万语音库的帖子。 ...

+ n8 V! ^$ G$ L) v7 [3 _
! W/ X1 u$ Y* O6 G+ n我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易操作了。3 D! ?1 ~. {* E% C* x
一个句子用6行来表示:) P5 l* _* D! t; L1 r. E0 [7 W
第1行:句子的音频文件地址(必须)$ _) k! a6 G" ~
第2行:英文(可空,但是由于你要搜索,那还是必须的), Y2 @- O% p* N% b
第3行:中文(可空)
& I8 h) c% W* V" x! [第4行:中心词(可空)2 _0 b( G  M! M8 q8 T8 I/ R
第5行:备注(可空,可能你以后还会从其他来源添加例句,备注下出处还是有必要的)
, U$ Q" d  R2 |6 e1 {8 @第6行:描述句子的图片地址(可空); U- P" V& s" k7 K
  a! _$ `0 @& b) g% g& W
你可建立多个句库,但是目前只能同时激活一个句库。
7 P# d& R3 P! I两种方式查找:
8 ?7 F+ M( g* {" t, f+ f" [; R  N1 “我的”-“句库”下方有搜索框,但不支持正则查找。这个查找结果可以导出为MP3.$ _! e( [3 c8 a/ V% B, P
2 “字典”查找单词的时候,也会出现句库里的句子,支持正则,但这个地方的结果不能导出。; `% P3 s  T4 U, o8 y$ U
* G7 S5 W- {# X) s; S+ |1 n
哦对了,我差点忘记了。
" H$ n+ z3 A/ A$ t- I7 w3 y你现在做的一切准备工作都有可能白费功夫。做之前还是先对比下吧。
0 |, A* Y2 R" L4 H因为Aboboo“字典”本身官网就提供了一个15万真人语音例句,我以前对照过,发现它用的其实就是朗文例句,只是不太清楚它是哪个版本。
  s7 b' M# S; m7 z2 A3 q. N" ]( O1 _& I, ^$ W, b1 A
我草草对比了下,就发现有一样的例句:: ^8 ]% V6 k; W+ G' \4 {

4 F3 d; G8 H+ ^- X7 B) H这是你帖子截图中的例句
0 }; R# m" o- h3 F5 \
( L0 ?7 C, f0 B: z$ A& \  m2 j
# U7 L: P$ F" j0 q这是官网自带例句库的例句
/ c; Y' O0 C* I

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

 楼主| 发表于 2016-4-28 20:07:02 | 显示全部楼层
LYX1692 发表于 2016-4-28 11:413 v) A) H' y) Y8 O8 L( }
我重新看了下《批量导入句子功能说明》,你只要整理好了音频文件名和句子文本的对应关系,那就非常容易 ...
& ^+ \* @0 _1 h  Y* g! K
是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。
; F5 r9 y% N0 G- c+ y  T6 C, q$ A4 P
Aboboo已经建立足够大的音频库了,我比较了例句后认为,Aboboo是基于LDOCE5和LDAE4的例句音频建立的。$ ^% a+ e/ S* W9 n

& b# M5 g. V! i0 R' r& X- \与老版本相比,LDOCE6和LDAE5增加了一定比例的新音频例句。
/ C; h% v' M  W8 ^
5 y' n. \7 n1 B! J5 {# bAboboo已经接近完美了,想想能建立自己的语音库,还是很开心的3 K- `0 M" I$ Z/ w2 m. E3 w! o

该用户从未签到

发表于 2016-5-15 16:29:47 | 显示全部楼层
感觉很有用,做个标记看以后能否用上

该用户从未签到

发表于 2016-5-16 00:04:43 | 显示全部楼层
werwer 发表于 2016-4-28 20:07. Z7 e0 w1 C) E& S. o5 H3 V' ]
是的,你看出来了。其实我想做        LDOCE6和LDAE5的音频库。
" d$ J3 B) a  r2 H& H% G& y" T& B6 S  }. W
Aboboo已经建立足够大的音频库了,我比较了例 ...
+ `- j! z% x7 {4 M1 w8 M0 o, L7 B
Aboboo 的朗文句庫在操作上近乎完美,
( t! x: C) d) ~! O但实际上还是有大小问题各一:
$ {7 M- q: N! ], h7 _7 B, R
7 v. f3 U8 }; Q8 ~小问题: 欠若干词(为数约三兩百,与十多万句相比,算是个較小问题。)
% q' b5 x8 E- q5 C+ ~0 K( o( {6 m& [大问题:音质比原有的差很多!
  • TA的每日心情
    开心
    2019-9-4 10:12
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2019-8-5 15:51:50 | 显示全部楼层
    lz搞定了没有?我用anki fast word query,可以导出每次自己学习的单词表的单词的所有例句音频,但是名字是乱的,无法管理。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-24 14:52 , Processed in 0.024062 second(s), 25 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表