掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 8793|回复: 19

[工具] 维基百科转mdx源文件制作工具

[复制链接]
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2009-1-14 19:17:42 | 显示全部楼层 |阅读模式
    功能:
    & Y) {# Y' M! o5 K将所有mediawiki生成的dump文件转换为mdx html utf-8格式 可处理链接等一些东东。在条目大于1000000条时,会自动分割。如果想放到一起,可以用textforever再合并(超过1000000w条得wiki太大了。。,应该是其他语言的,非中文)
    : T0 \% T; X$ J3 N/ `" Z0 u0 Z- C! H' b$ z( C: d* Q- z! D
    生成的文件名为wiki2mdx0.txt wiki2mdx1.txt等等
    8 [) o+ [& m3 w+ i9 D4 L3 y2 P( |  ^* N5 y  ?9 g4 `/ l
    适用范围:" M7 M& S+ K$ D( S7 i
    http://download.wikipedia.org里所有的xml文件:lol; s* n1 N5 A, K# `/ R* s
    ) J5 ~& b4 n1 l4 _

    ) l9 h, W2 @! F: n+ m4 i: |用法:% a  r2 m3 R6 Z2 t3 r1 n8 V; O
    1.cmd下 wiki2mdx abkdkeaf.xml1 ~* ^! G* l2 }5 Y3 b
    2.解压到和xml文件相同的目录下,把xml文件拖到此程序上,自动开始转换
    / F2 J6 X6 B% ]1 m
    + p' o' w( T9 S下载地址:http://daminghome.com/tools/wiki2mdx.rar
    7 S: o/ f8 {. C4 L& e; ^9 B3 X# r) I  d* Z' \6 l( w
    http://blog.daminghome.com/tools/wiki2mdx.rar- G5 n8 w- j3 |  w  f" r" S/ \1 C
    + J6 O; P4 v6 R. a0 Q& B) Z. ]

    . g7 o7 f7 x* i# P) D" S6 t优点:
    4 x. K1 V8 Q8 z3 q9 H( ]基本不占内存,不影响正常上网。
    ! K- Y9 @- D* ~7 c3 H) a; G% b& R* {' r  _0 I* I. K
    缺点:
    7 S  i$ Q! G# s结构过于简单。最后会报一下无法找到吓一条的错误。懒得加判断了。~
    ! V( t) \( [5 c8 `- V- K+ v" Z' e8 P+ w
    7 f) j( k+ Y  i* B
    作者:0 n8 B  j- i0 w( i& a3 m6 t
    0 d: i, X1 {. {' f
    我码出来的。。。; Y) q- X- [, X! ^' F$ ]; E2 B! v

    # q: r3 g8 t" ^. T7 J[ 本帖最后由 发哥 于 2009-3-14 19:26 编辑 ]

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-1-14 19:30:16 | 显示全部楼层
    速度视CPU牛B与否而定。- a& Y- i8 K% i5 `; c- ]
    至强四核酷睿二大概是50页每秒3 _  H8 w: j) o! l# J
    t5500的笔记本开最低频率是17页每秒左右。5 x$ f5 S5 ]  O& {
    生成的txt文件html标签较多,压缩率在26%左右。生成的txt比xml文件大一些。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-1-14 19:59:31 | 显示全部楼层
    增加了一个自由指定最大页数的版本。  }% X% U  e: h* x( o( C7 X
    就是不能拖动着用了( I% @2 y6 e3 [7 b* U
    http://daminghome.com/tools/wiki2mdxa.rar
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-1-14 23:58:42 | 显示全部楼层
    压缩率20%- f% X9 _6 l" s
    试了个日文的。
  • TA的每日心情
    开心
    2018-10-17 09:01
  • 签到天数: 18 天

    [LV.4]偶尔看看III

    发表于 2009-1-15 10:48:50 | 显示全部楼层
    不错的帖子,谢谢楼主的努力和辛苦。

    该用户从未签到

    发表于 2009-1-17 11:50:21 | 显示全部楼层
    感谢提供

    该用户从未签到

    发表于 2009-1-20 23:01:56 | 显示全部楼层
    呵呵,感谢一下。

    该用户从未签到

    发表于 2009-1-22 15:58:17 | 显示全部楼层
    原帖由 发哥 于 2009-1-14 19:59 发表
    : Y1 ]/ K3 P/ C% }! A, Z; \增加了一个自由指定最大页数的版本。+ S) L+ Z  @8 N* i
    就是不能拖动着用了+ L5 s! o0 k5 Q5 B) C) y/ N
    http://daminghome.com/tools/wiki2mdxa.rar

    ' ~- H' W, ^, u+ S% D+ O" W) u
    6 N1 g. x% i) \& V" y9 L' J3 X$ y运行后提示说"MUST SPECIFY THE MAX PAGE OF THE FILE"! n* C% `" T# Z& o# k: S
    请问怎么指定最大页数?

    该用户从未签到

    发表于 2009-2-6 08:57:31 | 显示全部楼层
    今天提取WIKI DIC日语版时出现错误提示无法转换:
    # L9 Z6 c- i0 i" ~: P# c! b"unable to handle any case setting besides 'first-letter' at w2.pl line 18."
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-2-6 11:41:49 | 显示全部楼层
    原帖由 tony4d 于 2009-2-6 08:57 发表
    7 M! r/ \2 m- P$ A6 V" G: Y今天提取WIKI DIC日语版时出现错误提示无法转换:/ ]. M. J# A5 H6 O" Y5 L
    "unable to handle any case setting besides 'first-letter' at w2.pl line 18."

    + z, u" o% e* K" F/ i/ x, ]别理会这个..你看生成文件了没.., r( t3 h' G' q8 s; m1 Y5 p4 B
    我忘记怎么指定页数了../ S+ `* Z; x# e5 p' D
    你在cmd下敲一下这个命令看看...

    该用户从未签到

    发表于 2009-2-6 12:20:33 | 显示全部楼层

    回复 10楼 发哥 的帖子

    没有任何文件生成
    1 Z+ |% K- o6 k' d& ~' T7 V* Y要不你下载这个维基日文词典源文件看下是怎么回事
    6 Z2 q% j9 }9 `http://www.namipan.com/d/0203.xm ... 73d014c0094af5b5a03
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-2-6 16:17:47 | 显示全部楼层
    不能处理分段的。。只能一次读一个整dump文件。。

    该用户从未签到

    发表于 2009-2-6 16:47:50 | 显示全部楼层

    回复 12楼 发哥 的帖子

    啥意思啊。是我下载错了,还是维基词典的格式就是不行?6 b6 ?$ l6 ^" ~+ D& Q
    那MAC那英文维基词典是用什么工具做的啊,可否分享一下,我想做下这个日语维基词典。
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

     楼主| 发表于 2009-2-6 18:15:15 | 显示全部楼层
    我只分析了维基百科和文库。辞典没注意过。貌似差不多吧。。这个程序本来是我写来处理英文维基的副产品。。3 A3 y" M; T: F1 r- H, Z$ _
      M& }: j$ o" L  g- f, h1 P
    mac的词典是用原先的一个工具做的。。你发短信找他要就对了。

    该用户从未签到

    发表于 2009-2-6 21:37:44 | 显示全部楼层
    转换工具在这儿:
    6 I4 e* g) j2 @7 A7 I2 o6 F6 p8 l) {$ l7 B/ k7 j# ?  w
    https://pdawiki.com/forum/viewth ... mp;highlight=wikito
  • TA的每日心情
    开心
    2018-4-28 13:02
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2009-3-7 10:08:24 | 显示全部楼层

    wiki2mdx文件生成

    wiki2mdx转换后找不到生成的文件

    该用户从未签到

    发表于 2009-3-7 11:38:02 | 显示全部楼层
    在 C:\Documents and Settings\用户名\

    该用户从未签到

    发表于 2009-3-7 23:35:33 | 显示全部楼层
    几位大佬授人以渔,实在感谢。

    该用户从未签到

    发表于 2009-3-18 03:08:57 | 显示全部楼层
    报告使用结果:7 }* W( X3 f: l$ G' c- X  A
    我在转换西班牙文维基时报错,没有生成任何文本。西班牙文维基词条超过100万,xml文件体积在1.6G左右。
    , w1 t/ U" L- @: q0 p  x. w1 U' k7 M
    " C$ ^  H$ M# [0 A2 f/ G还请楼主解惑,谢谢了。

    该用户从未签到

    发表于 2009-5-6 20:31:44 | 显示全部楼层
    wiki的图片文件是哪一个?7 }5 K' `1 P* ]
    怎样制作有图片的wiki百科?  ?* S+ S/ P; k2 n, c2 o
    谢谢!
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-7-9 22:06 , Processed in 0.030288 second(s), 30 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表