|
本帖最后由 philostone 于 2012-3-1 17:51 编辑
' k4 H0 L4 y9 K a% w4 ?; \/ I+ d$ h$ d8 |9 Z: l* H
/ P& _! t% T! ]% J
一、准备维基资源数据文件
$ Z3 i' w! K' e: Y! [: o1. 登陆维基资源数据网站http://dumps.wikimedia.org/backup-index.html;0 e$ n$ Z7 c& S( _
2. 在该网页上查找想要的维基资源(可以用ctrl+f快捷方式),中文代码为zh,意大利文代码是it,zhwiki就是中文维基百科的数据,itwiki就是意大利文的维基百科数据;" {; K7 j' ^7 ^9 d
3. 在具体资源网页上下载文件结尾含pages-articles.xml.bz2的文件;
% E4 Z, p$ n- l& z6 I4 s/ \. P4. 下载后解压出文件结尾含pages-articles.xml的文件,把文件名中pages-articles.xml前的部分删掉。2 s: s4 b: x3 s0 l
1 q3 H# y% m" A二、准备并使用xml转txt的工具,这种工具很多,操作最简单的主要有两种:
) L2 G1 v6 X! e' u1 s1 `1. WikiToMDict2.0.exe 下载地址http://115.com/file/dpdhh53x#3 l% H8 |; a! i- u
在DOS下(CMD下)转到工具所在目录,(不管转何种语言的何种维基资源)键入wikitomdict2.0执行转换;( `, d( ^3 e0 A4 f% c* ]
2. Wiki2TXTv2.1.exe 下载地址http://115.com/file/e73kk63j#
* s7 _5 G+ h: Z/ O: z0 i" D' b在DOS下(CMD下)转到工具所在目录,键入wiki2txtv2.1 it wp(注意it前后各有一个空格)。其中it 表示意大利语,如果你转的是中文资源需要用zh 代替it;wp表示百科,如果你转的是文库,则应键入ws。
: |, v2 }% r; L% V7 P3. 等待一定时间即可完成格式转换(转好的txt文件可以重命名)。( z9 E1 q' U) E$ o+ i7 f
) N. B2 k. M2 R: `3 a' r
三、用Mdxbuilder转换TXT文件为MDX文件8 E$ h: \" H1 L2 U6 G7 l/ D
1. 下载最新版的Mdxbuilder程序文件,) x0 z( {! b& A9 Z: K s: Q
2. 在source栏浏览找到转好的txt文件,在Target栏键入想要转换成的mdx文件名(及其路径),style栏可以留空,data栏是在有图片、声音等其他附属文件时才用的,如果有这类文件,输入其所在地址和文件名,original format一般选 MDict(Html),encording一般默认选UTF-8(Unicode),但在法语等语种最好用UTF-16,当然相应的上面的txt也得先打开另存或用其他工具转为UTF-16编码;Title就随便写个标题了;Description主要是词典封面设计,可有可无,了解些html语言,如同设计网页一样可以把词典封面设计得很漂亮,比如你在data所指的文件夹中存了个名为X的图片,你就可以用<img src="/X">把图片弄到封面上……
" b0 w8 n1 t# v% ^* l `这些完成后点start就开始转换了,依文件大小时间长短不等。3 E7 A0 E8 y |$ l
0 U! W: \- M6 F9 b: }+ Q
四、可能遇到的问题
9 s0 S: \# v5 T, |1. 如果转换时出现词条名过长的错误,就得按Mdxbuilder提示的位置,打开txt文件查找修改。打开大txt文件推荐使用uedit32(请自己到软件网站或利用迅雷等下载工具下载新版本来使用)。打开文档后,首先ctrl+h切换成十六进制模式,再ctrl+g 输入Mdxbuilder提示的出错位置并查找,然后再ctrl+h切换成文本模式找到对应位置对词条标题进行修正。修正时,如果不好确定词条名,建议到http://www.wikipedia.org/,在相应语种维基资源下,粘贴入从该问题词条中复制的一段正文来找到词条标题。
- T: F) F G3 {* n- \5 i# i2. 下载解压后的XML文件过大,比如英、德、法等语种的维基资源,可以使用Split.exe这个程序(下载地址http://115.com/file/be6dijue#)来劈成多个部分来转为txt,再用TextForever.exe这个软件(下载地址http://115.com/file/dpdh0bl8#)来合并。
8 A+ u4 H6 M$ a" \* b8 d. v5 J
" A4 j R4 B; C. w$ r+ t$ m0 r$ i$ F1 R
附:ISO 639-1语言及代码
. C/ G7 Q8 Z, u) [; ]: e, r, t |
|