掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 20122|回复: 54

[工具] New Wikipedia rendering engine

[复制链接]

该用户从未签到

发表于 2010-7-12 22:04:40 | 显示全部楼层 |阅读模式
本帖最后由 superfan89 于 2011-2-25 11:41 编辑
( t# x2 }* Z9 r, X$ w' Y
$ q5 R* i8 F# |( N, N3 i4 a* D一直以来使用philostone等兄弟转换的wikipedia,在手机上读维基百科的感觉十分爽,唯一美中不足的是其中一些未处理链接和标签。前几天在网上google来MWlib和aard dictionary这两个好东东,其中Mwlib是专门用来转换wiki格式的一个程序库,aard是一个跨平台词典,包含了开源的词典转换软件,可以用来直接转换维基百科的xml dump。对原作者的代码略加修改后即可以直接输出Mdict可转换的文本格式。
! q4 g) @! v6 ?  r4 I    这个版本转换了zhwiki dump大约1%的内容,花费了近30分钟。/ o' ~& n) q1 H9 }7 j  a
已知的优点和缺点:
* {# M- v# c/ A) q/ |2 P优点:
- T; J+ s- b- \( @1、残留的标签大大减少,格式更加完善
+ G/ W. r' Z% e2、公式全部采用TeX渲染成图片,更加美观2 m% q% P- x6 C4 A1 s8 }4 ^- s
3、包含词条重定向
5 ^5 r" D" B- n9 I; g% w9 O缺点:  M: K* w7 z- ?- ?: |0 ?% y2 `
1、渲染出的图片嵌在网页内部,只能用PC端Mdict显示
$ I! {/ y3 C1 ?2、部分格式不正确
; g" E6 k) \; h7 v; N2 C* X1 s3、需要在Linux下搭建转换环境3 |% \# t( B; s6 d+ {* ]

+ u. y4 {5 i# t$ G, h7 m- i# S* U: ^相关参考:
6 A6 d8 g) ?1 V+ `2 d; E* y6 s( dhttp://aarddict.org/9 S3 L4 P. N) V7 g) W3 a
http://code.pediapress.com/wiki/wiki/mwlib
: |* d5 e/ N: t) {* zaard 09年12月的中文维基百科(完整版)http下载,与这个demo的格式类似:4 J1 W5 N( V  b+ N0 ?) _
http://aarddict.org/d/zhwiki-20091225-1.html.aar6 d& [( }) {: [! a7 o
希望有兴趣的朋友们能共同研究探讨。3 w. R4 f8 \- J" l& o' X' w8 C

9 Z; k4 f1 H( K: O/ _7 n9 b" j9 Y这里提供一个Mdx(1%词条)仅供测试,想日常使用的朋友就别下了。* o" ^8 P) y+ ?" ]
WikiDemo.mdx5 _, N7 a' w9 N4 E( ^
http://u.115.com/file/t417cc4b83
0 Y3 G! h9 \) `% ~4 \# Mp.s.:可以套上这个wikipedia.css一起使
6 a; m. i/ T6 y  U9 }9 ]' A
4 D% Z7 [) w( K' \  X* c' h! f8 Q-------------------------------------" l$ ?* T7 @# ^
2010/07/13
5 C1 W) j4 p0 z' ?! P. M; i7 v改进:  u# `% o& f; o
1、TeX渲染图片输出单独输出至data目录
! P. u* Y! _: @. J4 \$ H2、引用和引用链接可以互相跳转,看文章非常方便
/ U9 l0 F( K4 H' [* ~初步具有了可用性,上传在此
) K& X' C& ?( [* M5 {. M( {. r: }% {4 M& p
使用时覆盖Aard Tools中的对应文件即可
+ p- E# g- I9 k8 l& u" D" m/ RAard Tools链接:+ q. q0 ^, F0 D1 r0 U7 t5 s% d
http://bitbucket.org/itkach/aardtools/get/0.8.0.zip" `, y- ]( g1 X, J! R( C$ H9 M* k
安装详细指南:
" B5 f: a9 f# B. ]6 X2 @! |7 }http://aarddict.org/aardtools/doc/aardtools.html#module-aardtools
$ y0 {7 G% m0 S3 e6 I
+ B/ g& {, ~9 ]7 P+ X- ?( d3 c在Ubuntu或者Debian上安装最方便,因为依赖关系比较复杂,还不知道怎么在Windows上使用,望有兴趣朋友帮忙转出一个完整版本。
( T7 P' [9 g2 F% [( P8 _! Y3 `' P$ L( I! F7 p
再传个用新版的脚本转的Demo,含词条数要更少一些
( `! G; y# A1 ]) Z  l7 H4 yWikiDemo2.rar. v/ y( f( P6 g9 A
http://u.115.com/file/t4b4dc158f2 q3 a8 \( B2 H4 m' Q
-------------------------------------
6 R3 N' B, F: Q' ?2010/7/15
' e3 W$ a/ K* ]$ f; b6 n2 e/ Z0 B增加了“断点续转”功能,转换时输入"q"后回车,转完当前千个文件时会保存当前进度并停止,下次转换时可以接着转。
, a% t0 L* y0 r" Q) `8 R-------------------------------------
: S. |$ ]2 C9 I9 V: }2011/2/25" s  L! x3 V0 g, P
请用此覆盖aardtools0.8.3,依赖的Mwlib升级至0.12.13。, X& ~4 a; u& m9 v& `# \" p

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

评分

1

查看全部评分

该用户从未签到

发表于 2016-11-2 18:23:41 | 显示全部楼层
发哥 发表于 2010-7-12 22:16
. ]7 u, w. K/ \7 R接着改。嘿嘿。把tex搞成独立图片。。
  \% [% |. x- I# }" |
great

该用户从未签到

发表于 2016-4-15 13:13:23 | 显示全部楼层
👍👍👍

该用户从未签到

发表于 2016-5-31 11:58:56 | 显示全部楼层
非常感谢您的无私分享!辛苦了!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-12 22:16:24 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。

    该用户从未签到

    发表于 2010-7-12 22:22:08 | 显示全部楼层
    都是牛人啊
  • TA的每日心情
    开心
    昨天 05:57
  • 签到天数: 2551 天

    [LV.Master]伴坛终老

    发表于 2010-7-12 22:35:54 | 显示全部楼层
    期待中,确实是牛人。

    该用户从未签到

     楼主| 发表于 2010-7-13 09:52:37 | 显示全部楼层
    接着改。嘿嘿。把tex搞成独立图片。。2 P& d6 t( C. i
    发哥 发表于 2010-7-12 22:16
    ! I( k$ R- T6 b% a4 r. m) l
    嗯,又看下代码,应该是可以的,找时间再修改下
    wdianyu 该用户已被删除
    发表于 2010-7-13 10:56:46 | 显示全部楼层
    这个可以有
  • TA的每日心情
    开心
    昨天 05:57
  • 签到天数: 2551 天

    [LV.Master]伴坛终老

    发表于 2010-7-13 10:59:30 | 显示全部楼层
    在pc上使用,常常会显示错误,Mdict就没有反应了。
    , I6 P# {9 T: ]我对编程不懂,不知道是什么原因。

    该用户从未签到

     楼主| 发表于 2010-7-13 11:22:07 | 显示全部楼层
    是啊 pc上会显示脚本错误,不过好像对显示效果没什么影响。还不知道什么原因
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-13 11:29:33 | 显示全部楼层
    本帖最后由 yangxiups 于 2010-7-13 11:33 编辑 2 Z/ C* j- I, z8 {3 e

    ; ]8 q5 T1 b; o1 C4 [Bravo!

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 11:48:04 | 显示全部楼层
    装上那个css后效果会更好些

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:26:45 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:53 编辑
    ( c5 i; L* _" J/ u; H8 C: v0 ?; n0 f$ u" w) M, a
    TeX单独渲染为图片的效果* @2 g- m1 F9 I- g0 x

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

     楼主| 发表于 2010-7-13 18:27:00 | 显示全部楼层
    本帖最后由 superfan89 于 2010-7-13 18:58 编辑
    0 R- [" T/ K0 _% }" W4 C, ^- o. a! c# W
    竟然发重了,汗
  • TA的每日心情
    郁闷
    2018-3-3 19:50
  • 签到天数: 3 天

    [LV.2]偶尔看看I

    发表于 2010-7-13 19:58:57 | 显示全部楼层
    显示效果真不错啊:D
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2010-7-13 20:05:31 | 显示全部楼层
    太强大了!超级期待呀!

    该用户从未签到

     楼主| 发表于 2010-7-14 00:07:25 | 显示全部楼层
    程序已经上传了,暂时挂不了机,望有兴趣的朋友帮忙转出完整版,现在的这个脚本只能一次不间断的将所有文章转出。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-14 19:08:14 | 显示全部楼层
    很期待!
  • TA的每日心情
    开心
    2018-7-19 02:16
  • 签到天数: 20 天

    [LV.4]偶尔看看III

    发表于 2010-7-14 22:13:14 | 显示全部楼层
    服务器是centos的,依赖关系搞不定。。。

    该用户从未签到

     楼主| 发表于 2010-7-14 22:31:30 | 显示全部楼层
    恩,那就找机会单机转好了。。。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 19:46:27 | 显示全部楼层
    我想试一试,可对linux几乎已无所知,自己在电脑里装了一个Ubuntu desktop,安装详解里的每一个提到的工具都要安装吗?怎样安装这些工具呢?

    该用户从未签到

     楼主| 发表于 2010-7-15 20:37:42 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更改的版本。
    # a8 T# U+ k5 W+ [' M# X" Z/ ]    可以去Ubuntu的wiki看下。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-15 21:20:30 | 显示全部楼层
    谢谢了!试试看。
  • TA的每日心情
    慵懒
    2020-12-11 08:19
  • 签到天数: 104 天

    [LV.6]常住居民II

    发表于 2010-7-17 15:10:27 | 显示全部楼层
    是的,那几个最好都装上,像Ubuntu和debian这样的系统用apt-get install xxx的命令可以直接下载相关包,如果是源代码的话就make之后再make install就好了,解压缩用tar -xvf xxx命令。大概就是这样了,一会再传个新更 ...
    $ E7 P/ M* W6 x$ V& ssuperfan89 发表于 2010-7-15 20:37

    % b- ~9 p6 J2 E4 X9 P工具都已经 装好 了 ,下載好 了 DUMP文件,使用 AARD TOOLS 应該怎樣操作 呢?
    : n& W, i% e* mINSTALLATION中 的
    Assuming source code code is in aardtools directory:, z% K$ ~0 D# N( U0 G& z: R7 x* E  l
    : W0 N& r( ^1 D8 \
    cd aardtools3 ?. _( u- x( U% }" p% o" G7 f. Z% P
    sudo python setup.py install

    4 s& ~9 D6 d! D0 K$ d: J; F这一条 不知怎么 操作 .謝謝指導!

    该用户从未签到

     楼主| 发表于 2010-7-17 15:28:59 | 显示全部楼层
    在终端里 进入到解压后的aardtools目录,输入sudo python setup.py install就安装好了5 N2 n9 u7 o% L. o4 i: R  n# _0 ^; k
    全部安装好后,要使用mwbuildcdb这条命令将xml dump转为cdb格式,再用aardc命令开始转换。
    yulan6248 该用户已被删除
    发表于 2010-7-18 02:09:34 | 显示全部楼层
    太牛了 支持支持!!!!!!!!!!!!希望早日出炉

    该用户从未签到

    发表于 2010-7-18 10:05:42 | 显示全部楼层
    很好,很强大!以后慢慢学着用……
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-6 03:05 , Processed in 0.028316 second(s), 30 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表