|
我用的工具是WikiToMDict 2.0,MdxBuilder2.5。
3 f* ]; q0 @) v6 Z- o
, _2 N1 T" p) E, W第一次下载的是zhwiki-20090327-pages-articles.xml.bz2这个文件,维基的提示是Articles, templates, image descriptions, and primary meta-pages,含585999个页面,解压后的文件为1.2g左右,用WikiToMDict 2.0处理过后得到的WIKI.TXT大小约500M,生成的MDX仅200M,查看后发现很多词条都丢失了,以为是下载文件的问题,于是下另外一个处理。0 e2 V- @1 P/ J( N
+ U% W+ l1 a5 @5 C
第二次下载的是zhwiki-20090327-pages-meta-current.xml.bz2这个文件,维基的提示是All pages, current versions only.,含有791950个页面,解压后的文件为1.8g左右,同样用WikiToMDict 2.0处理后怪事就发生了,得到的WIKI.TXT文件仅有400多M,比第一次还少,生成的MDX仅180多M,查看后发现词库丢失更加厉害,,,,,,
1 ?% {8 C. p1 C
, ^; M( {+ d4 e$ ^* L1 N# B1 O请问问题出现在哪里呢??? |
|