掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20186|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑
$ ?/ n1 G5 u% ~! q  J5 m7 r  ?) \7 M! N$ }
一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。
) e# I6 {' v1 M2 X6 u  w! R    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。
7 Y1 H' \1 S' H  z6 |8 Q已知的优点和缺点:
8 n& s$ a8 R# J* J/ J优点:
: T1 F9 g. [# e5 k1、残留的标签大大减少,格式更加完善7 o8 i+ l; [  J( F6 f' S
2、公式全部采用TeX渲染成图片,更加美观8 l; l; n, ~" R7 D' \
3、包含词条重定向( J( E' K1 g6 h% c7 `5 O1 }
缺点:
9 |6 F/ Y9 z: l9 @8 G6 M1 w1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
& J% @, P1 d1 V* M0 b7 \( i5 D4 j. b' A2、部分格式不正确
2 C9 p$ d- z: V4 K( d3、需要在Linux下搭建转换环境
, r9 m; S+ x8 w- x7 T+ L7 r! Z
( l# {# B7 N+ S$ w9 u相关参考:
8 J% M8 M3 \3 y) yhttp://aarddict.org/
# y- ]6 z+ S" v, E7 chttp://code.pediapress.com/wiki/wiki/mwlib
; d2 l; i# M+ g9 y! f% W. U9 `( oaard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:
9 ^. D& j: E9 X, bhttp://aarddict.org/d/zhwiki-20091225-1.html.aar
% \3 l& O# B, u, G希望有兴趣的朋友们能共同研究探讨。
4 ^* w6 l. M$ H/ p/ m
% Y5 _  E) J* x0 a4 ~这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。" h% [, ]2 |; S4 a* y7 ?* X+ o6 Z; R% x
WikiDemo.mdx" R7 z/ ?" C2 l/ f1 s' M# M; j7 Z3 n
http://u.115.com/file/t417cc4b83
& O  j, }& m9 j. y% _& mp.s.:可以套上这个wikipedia.css一起使9 c% U+ h$ i0 R
; ~+ e6 e' B; E2 E0 i: t
-------------------------------------
8 o+ V" M* e, _3 l5 [& _9 k2010/07/130 A: W- K' t$ g  r' f. ]2 {
改进:" W6 d) B/ s: [9 k8 C
1、TeX渲染图片输出单独输出至data目录
4 o$ |9 C7 a5 @4 c' q5 {2、引用和引用链接可以互相跳转,看文章非常方便* s1 L2 o5 c- ?
初步具有了可用性,上传在此
  y8 F1 r2 N  u9 m7 n
) S. T! [' F4 ^% p使用时覆盖Aard Tools中的对应文件即可
' B: \5 w, K/ v" v  i0 w3 a# ]. HAard Tools链接:+ B: {/ t. A. m- m3 W3 C
http://bitbucket.org/itkach/aardtools/get/0.8.0.zip( G  H$ V( ^3 q' L( k
安装详细指南:. q4 u5 v. s1 V* n$ r" H/ S
http://aarddict.org/aardtools/doc/aardtools.html#module-aardtools
. r, b$ Z! ?/ u6 _5 Y
- _' F5 O! E- v4 I3 |+ o" a在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。' ]. o3 b2 J9 Z7 Q: |

" g  d. k5 L' A' F/ ~0 ]再传个用新版的脚本转的Demo,含词条数要更少一些- x4 o% }3 \3 n
WikiDemo2.rar; X1 d" l  b0 P- m# E  _2 v' X6 d
http://u.115.com/file/t4b4dc158f0 u) A4 @% q9 k  }- r
-------------------------------------6 j7 @, _2 {' K
2010/7/15
, h3 m8 \3 C- T. }1 |* S/ Z增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。
* Z/ b0 Z  }8 V9 g3 g# r/ M-------------------------------------% W7 ?$ t2 i1 G! A8 U6 a
2011/2/256 _& S7 x( E, V; X
请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。
4 L4 S2 l( l8 f. k7 g% i

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16
0 P, q6 Z. b, z# F接着改。嘿嘿。把tex搞成独立图片。。

& w! y  K  T  Z% _7 N# D" I, jgreat

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    昨天 06:41
  • 签到天数: 2570 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。
    ) E& Q$ L1 e7 ~发哥 发表于 2010-7-12 22:16

    . v7 [# D# X2 m& i- d3 {) f" H嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    昨天 06:41
  • 签到天数: 2570 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。) T3 x) p: V& B
    我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑
    4 _+ `9 d7 L7 X8 y$ v# t. _4 }/ b( ^/ W
    # `4 N' D0 S: w' O$ fBravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑
    , r4 Q3 S# @9 U) O6 q4 Z) x
    : O0 L: K; @  W* t9 h* m4 a  P2 O1 _TeX单独渲染为图片的效果' L9 ^6 t+ c! I

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑
    : ?9 w' {7 c! K/ C/ N, _, C  N: _
    $ ~9 q5 V, {  ~8 D: t% m竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。4 {4 _. \7 Z8 {: H( b' w
        可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...
    5 g* t( H' u% S. e. n/ Usuperfan89 发表于 2010-7-15 20:37
    * Y2 @- Z( a2 ~. V5 H. O
    工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?
    4 @3 |1 h" W7 u- k, tINSTALLATION中 的
    Assuming source code code is in aardtools directory:0 ^9 p% E' _& j; [! H; b: B* {5 h

      g+ D3 {7 z! [% E4 R5 a3 _. wcd aardtools5 T7 m# ~' N: w% G& N" l
    sudo python setup.py install

    ( H; O; C; g) p$ J  e& W6 m这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了+ z. R% D) z4 F: Q; s) |
    全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-27 00:05 , Processed in 0.028017 second(s), 30 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表