掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20342|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑 5 \) S: G% G4 V4 [8 o
7 P$ g& Z6 D7 c' [4 q- ?# ^( Z
一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。
1 h  V; ^5 I* D- m    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。
2 V# U# ~' t: P' z9 i8 ]! k2 o, {已知的优点和缺点:- F; D  ~* Y+ R) O/ y
优点:
8 [- f% @4 S+ @% H; a: @2 L1、残留的标签大大减少,格式更加完善- @/ F$ T1 v" X9 c4 P7 j
2、公式全部采用TeX渲染成图片,更加美观
: ^5 u1 _, p0 n1 p6 P0 Y3、包含词条重定向
7 E3 F! c7 P" k缺点:
1 d: w4 U7 Y4 x/ ?, {7 K1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
, o; R, J$ q/ ~2、部分格式不正确
( R( L% H  X4 _% M3、需要在Linux下搭建转换环境
" J0 f! s9 @. e9 U* t
: n! V% C' Y9 }$ k0 _相关参考:. J* w! k' b0 o) J0 ?
http://aarddict.org// {2 u2 O5 ?! ?4 g
http://code.pediapress.com/wiki/wiki/mwlib9 y  s4 A9 ~. n6 F. T8 ]; l( e
aard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:
* z) H9 q- G/ T* r. ?http://aarddict.org/d/zhwiki-20091225-1.html.aar# b$ s. V1 F) h
希望有兴趣的朋友们能共同研究探讨。! Z- G3 x1 u4 x& Q6 _4 N

/ E: \2 U* |4 ~0 ~& a* j5 v这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。
3 w0 ~. r# h/ S1 ?4 r: P3 t: \WikiDemo.mdx3 Z- N; M! ^8 W" Z/ ~- t
http://u.115.com/file/t417cc4b838 ~: F" N; ~: q
p.s.:可以套上这个wikipedia.css一起使# y/ O4 m0 [* L0 ~. c

5 g7 b  Q- ]8 L% ^-------------------------------------
. N5 D! j2 u/ \) o2010/07/13$ S. @, M+ \+ c
改进:
2 u# s0 M1 `3 I: P4 I1、TeX渲染图片输出单独输出至data目录
( P, z( f! [- d3 W! G/ K2、引用和引用链接可以互相跳转,看文章非常方便4 l7 l. Z, [- T# _) J( l7 s- h
初步具有了可用性,上传在此9 P' S# G! W7 V& R3 r9 s: s+ t$ W$ x4 C

+ u) j- h0 |' H" G: ^! x使用时覆盖Aard Tools中的对应文件即可
/ J* B$ K2 u7 F6 [+ r; `- ~& d% p) iAard Tools链接:
+ W/ b" ?: P9 H$ k7 Thttp://bitbucket.org/itkach/aardtools/get/0.8.0.zip! M: Y. p7 M. q- I* Q, K4 p9 t
安装详细指南:
( ?) Q' k+ e+ p& w, v: ~  }3 n! z1 dhttp://aarddict.org/aardtools/doc/aardtools.html#module-aardtools
! T! @: I, ]9 q7 }9 T; l
9 V0 ^& S/ V6 t& D在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。
' Z  ^: }9 q; B# k& z6 `0 I2 }4 ?1 h/ u2 M$ x
再传个用新版的脚本转的Demo,含词条数要更少一些
) i4 T) ]3 T$ RWikiDemo2.rar
- ^; D4 F5 O; I1 `. ^" `: vhttp://u.115.com/file/t4b4dc158f0 u* |: U0 h/ o8 l, x
-------------------------------------$ `( y+ I. H- u7 W0 o" P
2010/7/15
( F$ E% v( N: }( j  Q4 P3 ~4 `" @8 j增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。
$ O: V$ \7 k+ y-------------------------------------# q( b2 p( |/ f" ]! |$ s
2011/2/259 k- q9 e0 i+ M
请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。
7 x# w: e! s- k8 \2 r

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16
1 z+ g$ R: q) c8 n- w5 f* G: I接着改。嘿嘿。把tex搞成独立图片。。
. \( Q. G; m- l* l& b( |! k
great

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 2589 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。3 F$ v( z: q  p( [& q' d+ k( F  N9 g
    发哥 发表于 2010-7-12 22:16

    ) {3 b% N! d/ U嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    10 小时前
  • 签到天数: 2589 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。" s2 |* c5 Y% f' f0 y; E6 R
    我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑
    ! Z5 p" ]8 }1 L( H# B5 F
    ) M1 x& M" n! g- WBravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑 2 z+ D0 @- G9 p/ Y
    1 C, ]  P* J7 X  J' @6 a2 ~. N
    TeX单独渲染为图片的效果
    3 O; k) `1 l/ p' l  s. l

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑 . Z( B7 a; Z& |: q

    - ~. @, _! \  e9 M; D+ v5 R9 v竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。
    . S) M$ v9 F+ d2 H/ I/ f    可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...- h" a3 n6 I1 v' e
    superfan89 发表于 2010-7-15 20:37

    * U# q) i; @) m, Z; f工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?
    : k/ e& z6 _& pINSTALLATION中 的
    Assuming source code code is in aardtools directory:4 y2 v" G1 d" F1 a
    7 t  ~; Y( d( S! w5 q/ P3 p' P
    cd aardtools2 P4 E  u5 f) ~3 V- {
    sudo python setup.py install
    9 ~  Q& [1 j. s: V# z1 A& s
    这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了3 ]9 b! H7 I6 h
    全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-17 17:37 , Processed in 0.028249 second(s), 33 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表