Anki LDOCE6 提取的例句媒体文件怎么重命名？

jiaqiangmit2 · 发表于 2019-8-2 21:25:36

本帖最后由 jiaqiangmit2 于 2019-8-2 21:30 编辑

各位大神
我在anki里已经实现提取LDOCE6真人朗读例句的制卡。现在希望能将音频文件单独放手机，睡觉和开车等时间听。问题来了：anki对媒体文件的命名是以类似于HAsh方式“乱码”命名的，从媒体文件夹里复制出来，所有的例句和单词的朗读时打乱的。能否实现：单词以其拼写命名（example.mp3）,对应的几个例句音频以单词拼写加后缀的方式命名，这样，放在手机里，单词和对应例句就可以一起读了。

如图，文件名是“l乱码”的
无法上任附件，名字是这样的：
[sound:-ldoce6-b0ab2fba-11b6ffb4-d84db123-b00153f3-9971952a.mp3]

对应脚本

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

#-*- coding:utf-8 -*-
import os
import re
import random
from ..base import *

VOICE_PATTERN = r'<a href="sound://([\w/]+\w*\.mp3)"><img src="img/spkr_%s.png"></a>'
VOICE_PATTERN_WQ = r'<a href="sound://([\w/]+\w*\.mp3)">(.*?)'
MAPPINGS = [
['br', [re.compile(VOICE_PATTERN % r'r'), re.compile(VOICE_PATTERN_WQ % (r'brevoice', r'brevoice'))]],
['us', [re.compile(VOICE_PATTERN % r'b'), re.compile(VOICE_PATTERN_WQ % (r'amevoice', r'amevoice'))]]
]
LANG_TO_REGEXPS = {lang: regexps for lang, regexps in MAPPINGS}
DICT_PATH =u'E:\Anki\Dick\L6mp3.mdx'

@register([u'本地词典-LDOCE6', u'MDX-LDOCE6'])
class Ldoce6(MdxService):

def __init__(self):
 dict_path = DICT_PATH
 # if DICT_PATH is a path, stop auto detect
 if not dict_path:
 from ...service import service_manager, service_pool
 for clazz in service_manager.mdx_services:
 service = service_pool.get(clazz.__unique__)
 title = service.builder._title if service and service.support else u''
 service_pool.put(service)
 if title.startswith(u'LDOCE6'):
 dict_path = service.dict_path
 break
 super(Ldoce6, self).__init__(dict_path)

@property
def title(self):
 return getattr(self, '__register_label__', self.unique)

@export('PHON')
def fld_phonetic(self):
 html = self.get_html()
 m = re.search(r'(.*?)', html)
 if m:
 return m.groups()[0]
 return ''

def _fld_voice(self, html, voice):
 """获取发音字段"""
 for regexp in LANG_TO_REGEXPS[voice]:
 match = regexp.search(html)
 if match:
 val = '/' + match.group(1)
 name = get_hex_name('mdx-'+self.unique.lower(), val, 'mp3')
 name = self.save_file(val, name)
 if name:
 return self.get_anki_label(name, 'audio')
 return ''

@export('BRE_PRON')
def fld_voicebre(self):
 return self._fld_voice(self.get_html(), 'br')

@export('AME_PRON')
def fld_voiceame(self):
 return self._fld_voice(self.get_html(), 'us')

def _fld_image(self, img):
 val = '/' + img
 # file extension isn't always jpg
 file_extension = os.path.splitext(img)[1][1:].strip().lower()
 name = get_hex_name('mdx-'+self.unique.lower(), val, file_extension)
 name = self.save_file(val, name)
 if name:
 return self.get_anki_label(name, 'img')
 return ''

@export('IMAGE')
def fld_image(self):
 html = self.get_html()
 m = re.search(r'<img src="(.*?)".*?>', html)
 if m:
 return self._fld_image(m.groups()[0])
 return ''

@export('EXAMPLE')
def fld_sentence(self):
 return self._range_sentence([i for i in range(0, 100)])

def _fld_audio(self, audio):
 name = get_hex_name('mdx-'+self.unique.lower(), audio, 'mp3')
 name = self.save_file(audio, name)
 if name:
 return self.get_anki_label(name, 'audio')
 return ''

@export([u'例句加音频', u'Examples with audios'])
def fld_sentence_audio(self):
 return self._range_sentence_audio([i for i in range(0, 100)])

@export('DEF')
def fld_definate(self):
 m = m = re.findall(r'\s*.*<\/span>', self.get_html())
 if m:
 soup = parse_html(m[0])
 el_list = soup.findAll('span', {'class':'def'})
 if el_list:
 maps = [u''.join(str(content) for content in element.contents)
 for element in el_list]
 my_str = ''
 for i_str in maps:
 my_str = my_str + '<li>' + i_str + '</li>'
 return self._css(my_str)
 return ''

@export([u'随机例句', u'Random example'])
def fld_random_sentence(self):
 return self._range_sentence()

@export([u'首2个例句', u'First 2 examples'])
def fld_first2_sentence(self):
 return self._range_sentence([0, 1])

@export([u'随机例句加音频', u'Random example with audio'])
def fld_random_sentence_audio(self):
 return self._range_sentence_audio()

@export([u'首2个例句加音频', u'First 2 examples with audios'])
def fld_first2_sentence_audio(self):
 return self._range_sentence_audio([0, 1])

def _range_sentence(self, range_arr=None):
 m = re.findall(r'\s*.*<\/span>', self.get_html())
 if m:
 soup = parse_html(m[0])
 el_list = soup.findAll('span', {'class':'example'})
 if el_list:
 maps = [u''.join(str(content) for content in element.contents)
 for element in el_list]
 my_str = ''
 range_arr = range_arr if range_arr else [random.randrange(0, len(maps) - 1, 1)]
 for i, i_str in enumerate(maps):
 if i in range_arr:
 i_str = re.sub(r'<a[^>]+?href=\"sound\:.*\.mp3\".*</a>', '', i_str).strip()
 my_str = my_str + '<li>' + i_str + '</li>'
 return self._css(my_str)
 return ''

def _range_sentence_audio(self, range_arr=None):
 m = re.findall(r'\s*.*<\/span>', self.get_html())
 if m:
 soup = parse_html(m[0])
 el_list = soup.findAll('span', {'class':'example'})
 if el_list:
 maps = []
 for element in el_list:
 i_str = ''
 for content in element.contents:
 i_str = i_str + str(content)
 sound = re.search(r'<a[^>]+?href=\"sound\:\/(.*?\.mp3)\".*</a>', i_str)
 if sound:
 maps.append([sound, i_str])
 my_str = ''
 range_arr = range_arr if range_arr else [random.randrange(0, len(maps) - 1, 1)]
 for i, e in enumerate(maps):
 if i in range_arr:
 i_str = e[1]
 sound = e[0]
 mp3 = self._fld_audio(sound.groups()[0])
 i_str = re.sub(r'<a[^>]+?href=\"sound\:.*\.mp3\".*</a>', '', i_str).strip()
 my_str = my_str + '<li>' + i_str + ' ' + mp3 + '</li>'
 return self._css(my_str)
 return ''

@export([u'额外例句', u'Extra Examples'])
def fld_extra_examples(self):
 lst = re.findall(r'href="/(@examples_.*?)\">.*?<', self.get_html())
 if lst:
 str_content = u''
 for m in lst:
 content = self.builder.mdx_lookup(m)
 if len(content) > 0:
 for c in content:
 str_content += c.replace("\r\n","").replace("entry:/","")
 return self._css(str_content)
 return ''

@with_styles(cssfile='_ldoce6.css')
def _css(self, val):
 return val
－－－－－－－－－－－－－－－－－－－－－

谢谢各位

frand · 发表于 2019-8-5 15:04:15

本帖最后由 frand 于 2019-8-5 15:07 编辑

jiaqiangmit2 发表于 2019-8-5 14:12
7 a" n, ?4 g% l; E2 E提供下你的qq邮箱吧，太大了这里传不了

你是想把为ANKI词库中的例句这一栏位的mp3文件改名吗？
Don’t get upset. I was only teasing. [sound:mdx-ldoce6-c2c10f2b-95694d96-b8ce94c6-8b1ffc37-4cc61462.mp3]

He used to tease her mercilessly. [sound:mdx-ldoce6-334d38fd-e368d636-f172000c-d2e5ec9a-18e9aeee.mp3]
She used to tease me about my hair. [sound:mdx-ldoce6-a00e3bdd-ca148afb-4cd3fd3d-9395d31a-64e0d996.mp3]
Stop teasing the cat! [sound:mdx-ldoce6-981ee5f3-c676372b-7de3ab98-aa4bee0d-812f59cd.mp3]
I finally managed to tease the truth out of her. [sound:mdx-ldoce6-185d0830-6aa160cf-8946fa47-eed2e253-ab219916.mp3]
She combed her hair, gently teasing out the knots. [sound:mdx-ldoce6-d27ad8ad-4cffb13f-61005ce9-2a9a9c77-aaf61afc.mp3]
Don’t take any notice of Joe – he’s a big tease. [sound:mdx-ldoce6-461c2965-8cf65cc5-b940976d-84da3c42-8d0a45a5.mp3]
I’m sorry, it was only a tease. [sound:mdx-ldoce6-f99bee54-64e083fe-f93770cc-56235b0a-7e4114fb.mp3]

frand · 发表于 2019-8-5 17:49:41

jiaqiangmit2 发表于 2019-8-5 17:06' }+ Z& q" M$ P% B1 V( U% ]
字典脚本里目前是输出音频，如果能输出并重命名，就一步到位了。当然，可能这个要求高了。只有能改音频的 ...

链接: https://pan.baidu.com/s/1GF3vZ9K3pukMlw3qbeXBig 提取码: u47p

根据你发的刘毅5000 anki文件，改名输出了例句的mp3文件

jiaqiangmit2 · 发表于 2019-8-5 21:22:28

frand 发表于 2019-8-5 19:45
4 B5 J6 q/ }) D2 J6 y我删除了多余字段，然后导出来csv文件。再写java代码读取文件并同时改文件名。。。。 ...

十分感谢，估计网上流传的例句库也是这样来的。我是程序小白，java那段操作，能否传授？免得每次都来麻烦你。同时我也想把单词的读音也导出来跟例句排一起

jiaqiangmit2 · 发表于 2019-8-4 18:47:20

顶。其实我只是需要以单词拼写命名单词和例句，以变分类

jiaqiangmit2 · 发表于 2019-8-5 09:05:26

顶，求大神支招

frand · 发表于 2019-8-5 10:05:33

代码提取的过程中，根据单词拼写直接写文件名字不行吗？

jiaqiangmit2 · 发表于 2019-8-5 14:02:18

frand 发表于 2019-8-5 10:05- |" T- d+ \. C T
代码提取的过程中，根据单词拼写直接写文件名字不行吗？

不行。好像是anki自己生成的媒体文件都是以类似hash方式生成的。。
都是这个样子：[sound:-ldoce6-b0ab2fba-11b6ffb4-d84db123-b00153f3-9971952a.mp3]

frand · 发表于 2019-8-5 14:04:57

jiaqiangmit2 发表于 2019-8-5 14:02
" @2 z, S3 `8 k$ P0 y; J不行。好像是anki自己生成的媒体文件都是以类似hash方式生成的。。
. H( f6 M6 S7 U; l$ S都是这个样子：[sound:-ldoce6-b0ab2f ...

把卡发给我试下

jiaqiangmit2 · 发表于 2019-8-5 14:12:18

frand 发表于 2019-8-5 14:04" s1 X7 m) Y# u6 O( O
把卡发给我试下

提供下你的qq邮箱吧，太大了这里传不了

frand · 发表于 2019-8-5 14:19:22

[email protected]

jiaqiangmit2 · 发表于 2019-8-5 15:17:30

frand 发表于 2019-8-5 15:042 s# Y" I% B5 f4 T
你是想把为ANKI词库中的例句这一栏位的mp3文件改名吗？# H( a& a- m2 D. [5 Z9 A
Don’t get upset. I was only teasing. [sound:mdx ...

对，改成以upset 开头，或者mdx-ldoce6-upset-xxxx.这样就可以把相同单词的例句放一起。

frand · 发表于 2019-8-5 15:30:45

jiaqiangmit2 发表于 2019-8-5 15:17" B# D# |+ k8 D3 ~- D9 k
对，改成以upset 开头，或者mdx-ldoce6-upset-xxxx.这样就可以把相同单词的例句放一起。 ...

所以，你只是想提取这个词库中的例句文件，并把这些文件重命名为【单词本身】-【原始MP3名称】。

对吧？

jiaqiangmit2 · 发表于 2019-8-5 15:34:49

frand 发表于 2019-8-5 15:30: N5 N! I# ~. `
所以，你只是想提取这个词库中的例句文件，并把这些文件重命名为【单词本身】-【原始MP3名称】。. ^' ~& }2 @6 y0 c' p3 r
6 M' G) |! F* L8 o' p, P
对吧 ...

对，例句的音频，以便单独听。相同单词的例句都以单词开头，这样方便管理。

frand · 发表于 2019-8-5 15:45:22

jiaqiangmit2 发表于 2019-8-5 15:34
/ n$ M! V+ q$ D2 m) Y对，例句的音频，以便单独听。相同单词的例句都以单词开头，这样方便管理。 ...

通过ANKI桌面端，删除不需要的栏位，然后导出成txt文件。然后，写代码按行读取，读出本行第一个单词栏位，然后读出本行的多个MP3文件，再把MP3文件改名。

jiaqiangmit2 · 发表于 2019-8-5 15:47:48

frand 发表于 2019-8-5 15:458 b2 W+ _9 N# T, _
通过ANKI桌面端，删除不需要的栏位，然后导出成txt文件。然后，写代码按行读取，读出本行第一个单词栏位 ...

不会写代码啊。。。后面的都不会

frand · 发表于 2019-8-5 15:49:58

jiaqiangmit2 发表于 2019-8-5 15:47* i: N+ O1 }4 y6 C
不会写代码啊。。。后面的都不会

你只有这一个anki文件需要处理，对吧？

jiaqiangmit2 · 发表于 2019-8-5 16:01:05

frand 发表于 2019-8-5 15:49" b6 s: J' C8 _: v& m6 g
你只有这一个anki文件需要处理，对吧？

我的anki用的是Ldcoe6的词典，这个词典有例句发音。anki一个deck差不多1000词。我希望每次能根据自己的deck里的单词表把这些例句抓出来听。对应字典的脚本发在我贴子第一楼。

frand · 发表于 2019-8-5 16:39:58

我还是不了解你要做什么。我以为只是把你发给我的词库中的MP3文件提取出来，并在更改文件名为单词+原始乱码文件名

jiaqiangmit2 · 发表于 2019-8-5 16:49:55

frand 发表于 2019-8-5 16:39
/ e9 v8 \7 R, C" F' W我还是不了解你要做什么。我以为只是把你发给我的词库中的MP3文件提取出来，并在更改文件名为单词+原始乱码 ...

是这个意思

frand · 发表于 2019-8-5 17:01:59

jiaqiangmit2 发表于 2019-8-5 16:49
% h& X6 S0 h% \! u6 g是这个意思

但是这样和字典的脚本有什么关系吗？你的ANIK文件里已经包含的单词、例句的MP3文件呀。

jiaqiangmit2 · 发表于 2019-8-5 17:06:35

frand 发表于 2019-8-5 17:01
: Y0 J6 n. A$ E! k) a1 r7 E+ L但是这样和字典的脚本有什么关系吗？你的ANIK文件里已经包含的单词、例句的MP3文件呀。 ...

字典脚本里目前是输出音频，如果能输出并重命名，就一步到位了。当然，可能这个要求高了。只有能改音频的名字就好

jiaqiangmit2 · 发表于 2019-8-5 17:55:50

frand 发表于 2019-8-5 17:49
/ q9 Z( e+ l; X- |/ Z& }1 l) D% @链接: https://pan.baidu.com/s/1GF3vZ9K3pukMlw3qbeXBig 提取码: u47p . f! Y7 E& U3 J" N

, ?* e4 P2 z S* v' \1 [根据你发的刘毅5000 anki文件， ...

谢谢，能告诉我怎么实现的吗？我会根据进度增加学习的deck

frand · 发表于 2019-8-5 19:45:44

jiaqiangmit2 发表于 2019-8-5 17:55
c, a# ?0 \' I1 E2 [谢谢，能告诉我怎么实现的吗？我会根据进度增加学习的deck

我删除了多余字段，然后导出来csv文件。再写java代码读取文件并同时改文件名。。。。

frand · 发表于 2019-8-5 21:33:16

jiaqiangmit2 发表于 2019-8-5 21:22
1 P( [: f2 z0 u十分感谢，估计网上流传的例句库也是这样来的。我是程序小白，java那段操作，能否传授？免得每次都来麻烦 ...

如果你不会JAVA，那应该没法用的。而且我这个代码写的也烂，不好拿出来的

		自动登录	找回密码
密码			免费注册

[使用求助] Anki LDOCE6 提取的例句媒体文件怎么重命名？