掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 8781|回复: 19

[工具] 维基百科转mdx源文件制作工具

[复制链接]
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2009-1-14 19:17:42 | 显示全部楼层 |阅读模式
    功能:" F$ U! B/ O6 {. \
    将所有mediawiki生成的dump文件转换为mdx html utf-8格式 可处理链接等一些东东。在条目大于1000000条时,会自动分割。如果想放到一起,可以用textforever再合并(超过1000000w条得wiki太大了。。,应该是其他语言的,非中文)
    $ S$ c9 a1 x7 [1 L" I3 \& m8 V% I, U4 }1 g& q+ ^3 `1 x
    生成的文件名为wiki2mdx0.txt wiki2mdx1.txt等等
    ) _7 A5 k' `; i2 E6 k; X3 Z2 {+ K9 R" }0 N- t6 i/ D' x/ h
    适用范围:3 G; Q$ y, U9 c; M$ D4 n
    http://download.wikipedia.org里所有的xml文件:lol9 U2 S' K; V! y5 ^/ o
    0 t) J' ?( ?& Y: b7 Y5 Q9 R
    ( H, z, k# W; q6 e  _( Y7 {) v
    用法:- T" p0 q; e( t. e1 ]# I
    1.cmd下 wiki2mdx abkdkeaf.xml
    * I7 D8 n/ Y% m4 o2.解压到和xml文件相同的目录下,把xml文件拖到此程序上,自动开始转换
    ( w) y9 E& K: @; Y/ z" L% m* G. k, O2 G7 P# A7 O
    下载地址:http://daminghome.com/tools/wiki2mdx.rar
    , ^% H2 k  _2 {+ o5 E1 |: B* w
    4 p3 e2 O5 n- j5 J4 X% z4 ?http://blog.daminghome.com/tools/wiki2mdx.rar( f. G9 U0 ?0 ~" B2 Y
    & I/ F$ H2 G( N% k" g/ X" m

    ( |- V, S4 `- [( l' |5 J+ A优点:& m+ c: r) t5 X8 x8 y7 M# c
    基本不占内存,不影响正常上网。: A. A5 G( u0 v9 `
    3 E( x' z: Q# w; i
    缺点:& u0 X. g$ U# B; y2 I9 k# V7 |% ?
    结构过于简单。最后会报一下无法找到吓一条的错误。懒得加判断了。~! D5 G: b& X2 \6 T7 `6 Q2 c: b
    ' ?1 v& c2 B' b: u3 X: W. ^- s  R
    * s$ w# d; ^$ \4 e" D% m
    作者:
    0 w3 V7 U! I* `/ z9 `& K: p+ _  R* J* u
    我码出来的。。。  m* t$ w( V' o, Z3 A& N( W' d

    $ T4 F( S# H3 S1 X$ s: l  Z% U[ 本帖最后由 发哥 于 2009-3-14 19:26 编辑 ]

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-1-14 19:30:16 | 显示全部楼层
    速度视CPU牛B与否而定。
    % d2 D! [. C) @4 t2 r# Z' ~1 i, i. ~至强四核酷睿二大概是50页每秒: x' Y  c: l# D- J) y8 ^$ e: K5 m. f
    t5500的笔记本开最低频率是17页每秒左右。( y& n. u& V( U; @; f+ I- S* H! J- {
    生成的txt文件html标签较多,压缩率在26%左右。生成的txt比xml文件大一些。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-1-14 19:59:31 | 显示全部楼层
    增加了一个自由指定最大页数的版本。
    0 Z) e4 o: r- q3 R# {$ G8 X6 u" d就是不能拖动着用了& I! Y  ?8 l) r1 l! f* o- \
    http://daminghome.com/tools/wiki2mdxa.rar
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-1-14 23:58:42 | 显示全部楼层
    压缩率20%0 Q9 x- D# P. E" Y# ]9 d+ @
    试了个日文的。
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2009-1-15 10:48:50 | 显示全部楼层
    不错的帖子,谢谢楼主的努力和辛苦。

    该用户从未签到

    发表于 2009-1-17 11:50:21 | 显示全部楼层
    感谢提供

    该用户从未签到

    发表于 2009-1-20 23:01:56 | 显示全部楼层
    呵呵,感谢一下。

    该用户从未签到

    发表于 2009-1-22 15:58:17 | 显示全部楼层
    原帖由 发哥 于 2009-1-14 19:59 发表 0 ~* X2 h& J# J, K, R3 g8 X8 v* @3 q# ]
    增加了一个自由指定最大页数的版本。+ b; t1 T4 e0 D/ p
    就是不能拖动着用了4 [+ _; [6 g0 D
    http://daminghome.com/tools/wiki2mdxa.rar
    1 ~1 z" m7 _' Y2 Z
    0 u& B4 M/ Q0 n6 y
    运行后提示说"MUST SPECIFY THE MAX PAGE OF THE FILE"3 ]; F5 f% e! E. }  p
    请问怎么指定最大页数?

    该用户从未签到

    发表于 2009-2-6 08:57:31 | 显示全部楼层
    今天提取WIKI DIC日语版时出现错误提示无法转换:
    ; h( H$ P# T! f2 q5 L; o+ Q"unable to handle any case setting besides 'first-letter' at w2.pl line 18."
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-2-6 11:41:49 | 显示全部楼层
    原帖由 tony4d 于 2009-2-6 08:57 发表
    2 E% o( @6 A/ E% \- \# p今天提取WIKI DIC日语版时出现错误提示无法转换:) h6 y; t. w2 A# Z
    "unable to handle any case setting besides 'first-letter' at w2.pl line 18."
    8 _) `1 q: H! S3 h6 o- a" \
    别理会这个..你看生成文件了没..
    $ N/ ?8 g) Q! d: Y- b  G4 n7 T2 p我忘记怎么指定页数了..9 e4 I$ ?3 {& @( @; \; |; Z/ l
    你在cmd下敲一下这个命令看看...

    该用户从未签到

    发表于 2009-2-6 12:20:33 | 显示全部楼层

    回复 10楼 发哥 的帖子

    没有任何文件生成! p4 B% l; b2 k& W! n
    要不你下载这个维基日文词典源文件看下是怎么回事
    " b6 p: o- L) d. Ghttp://www.namipan.com/d/0203.xm ... 73d014c0094af5b5a03
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-2-6 16:17:47 | 显示全部楼层
    不能处理分段的。。只能一次读一个整dump文件。。

    该用户从未签到

    发表于 2009-2-6 16:47:50 | 显示全部楼层

    回复 12楼 发哥 的帖子

    啥意思啊。是我下载错了,还是维基词典的格式就是不行?
    : S5 }8 {& C4 {( v那MAC那英文维基词典是用什么工具做的啊,可否分享一下,我想做下这个日语维基词典。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-2-6 18:15:15 | 显示全部楼层
    我只分析了维基百科和文库。辞典没注意过。貌似差不多吧。。这个程序本来是我写来处理英文维基的副产品。。2 Y' _7 M/ \" c' b* j: m$ B5 |5 U

    ) w- ?3 j9 |7 G* D, ?mac的词典是用原先的一个工具做的。。你发短信找他要就对了。

    该用户从未签到

    发表于 2009-2-6 21:37:44 | 显示全部楼层
    转换工具在这儿:, D$ ~& p; r( v. I

    4 i  _# m( f, ohttps://pdawiki.com/forum/viewth ... mp;highlight=wikito
  • TA的每日心情
    开心
    2018-4-28 13:02
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2009-3-7 10:08:24 | 显示全部楼层

    wiki2mdx文件生成

    wiki2mdx转换后找不到生成的文件

    该用户从未签到

    发表于 2009-3-7 11:38:02 | 显示全部楼层
    在 C:\Documents and Settings\用户名\

    该用户从未签到

    发表于 2009-3-7 23:35:33 | 显示全部楼层
    几位大佬授人以渔,实在感谢。

    该用户从未签到

    发表于 2009-3-18 03:08:57 | 显示全部楼层
    报告使用结果:, X# a9 {# s4 J
    我在转换西班牙文维基时报错,没有生成任何文本。西班牙文维基词条超过100万,xml文件体积在1.6G左右。4 `8 E, U- y9 F6 a9 O
    : h# B# R5 m/ q" C
    还请楼主解惑,谢谢了。

    该用户从未签到

    发表于 2009-5-6 20:31:44 | 显示全部楼层
    wiki的图片文件是哪一个?
      N0 |$ E8 y9 {怎样制作有图片的wiki百科?5 j% k/ n( p. L2 \6 O. [% ?, ~
    谢谢!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-6-17 05:46 , Processed in 0.026021 second(s), 27 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表