掌上百科 - PDAWIKI

用户名  找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 6514|回复: 8

[使用交流] 准备发布 fastwik-zim, 用于转换 zim 格式的文件

[复制链接]

该用户从未签到

发表于 2014-3-7 20:29:20 | 显示全部楼层 |阅读模式
fastwiki-zim 已经开发完成, 目前进入了非常细的格式调整, 所以在此请大家进行测试反馈./ m# L  d5 v7 ]- T

/ x+ f: w: \% J维基百科软件 kiwix 发布了许多语言的维基百科离线数据包, 详见:4 }& M8 o5 |8 |: j# T( A6 z
http://download.kiwix.org/zim/wikipedia/?C=M;O=D
4 g$ d' `  [6 T8 a7 Qhttp://www.kiwix.org1 K" d* x  O8 k/ l4 x

0 S2 L! z2 a/ C7 B! b7 N3 x7 O* h这些文件比较大, 无法用于版本比较低的手机, 并且 android 的 kiwix 只支持 android 3.0 及以上版本. 6 g! W0 D% y# {( W, O( e5 u
另外, 最关键的是, kiwix 制作的维基百科与网站几乎一模一样, 真是非常完美, 因此, 有必要提供转换工具 fastwiki-zim 专门用于转换 zim 文件.7 k* w: o+ |' e! D2 w" h0 Z/ [0 h9 u
7 P- i" k1 y* J- c* m% L
所以, 如有兴趣进行测试并反馈的, 可以先下载 zim 文件, 中文版的带图文件有 12G, simple english 有 1.7G, 也可以在百度网盘下载:
8 a& z0 [+ E# \& G! T! Khttp://pan.baidu.com/share/link? ... ir/path=%2Ffastwiki* z# q4 a6 [3 n/ v5 K
进入 zim 目录就对了. 由于这些文件比较大, 所以大家可先下载, 等大家下载完了, 就能直接转换了.
3 k+ d6 q" z: ~% f) u
$ ~3 g& S9 [8 ^目前 fastwiki-zim 转换 wikipedia_zh_all_12_2013.zim 耗时 14分钟, 转换 wikipedia_en_all_02_2014.zim 耗时 120分钟.
* n9 ^4 S/ s: A* G/ G1 p# r+ y8 n; ~; G6 F2 ~

该用户从未签到

发表于 2014-3-9 10:25:35 | 显示全部楼层
其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。  c, }* i% R5 y- Z$ n6 H
已经提交了一个bug了,比如安卓平台的kiwix软件+最新的zim英文数据库,手机上输入“ITX”并不能正常列出以itx开头的词条。但是在kiwix网站上则可以列出itx开头的词条。类似的有问题的词条还非常非常多,可能英文wiki中超过10%的词条都不能被查询到,使用非常不方便。. Q1 w9 S' n; N3 w
7 L8 B9 A- @5 V) {8 @0 ?
类似的词还有”ZBAA“……
" k. d; E6 ]6 T7 u' h( p2 L& Q, j
以上是kiwix的最大的问题。

该用户从未签到

 楼主| 发表于 2014-3-10 13:17:02 | 显示全部楼层
tedaz 发表于 2014-3-9 10:25 / S' T& E) w" s2 D- U" F' h2 K' @- x
其实kiwix也不完美,主要问题是丢词条入口,不知道是kiwix的问题,还是它的zim数据库问题。: b2 f, m: b9 f  c6 e/ ]8 d" N/ x$ h
已经提交了一个 ...
# I; m/ {8 N" c( e0 o4 |
% B  D% u3 e) h
应该是 kiwix 的索引问题,  
2 X* Z% o  k* E+ Sfastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-httpd 进行测试,/ {& `# [; N9 i% k& |
查找 "ITX" 和 "ZBAA" 都没问题, 你有没有兴趣下载这个 zim 帮忙测试一下?
1 W7 s( K# g1 P" W6 B# k- E9 v- w: \& ]  i' ?+ v+ E
不过, 转换后比 zim 大 9G, 共 49G, 主要原因是 kiwix 的页面中有许多内容是重复的,- E7 V/ v" F# F+ w
而 kiwix 使用的压缩块比较大, 所以它能压缩得比较小. 而 fastwiki 使用的压缩块很小,
9 Y+ \4 @! ]/ w/ T所以压缩后整体上变大了. 小的压缩块的优点是查找快.
  k" l3 y. [4 Q8 B
# A, b7 f$ i4 m# B1 F7 t
  • TA的每日心情
    开心
    2024-11-25 15:48
  • 签到天数: 2137 天

    [LV.Master]伴坛终老

    发表于 2014-3-10 14:51:41 | 显示全部楼层
    了不起!!!谢谢LZ!!!

    该用户从未签到

    发表于 2014-3-10 20:04:46 | 显示全部楼层
    fastwiki 发表于 2014-3-10 13:17 : ?7 d" |& ]* L
    应该是 kiwix 的索引问题,  8 [# E* r* u6 S& j
    fastwiki-zim 转换了  wikipedia_en_all_02_2014.zim ,  使用 fastwiki-h ...

    , i% ]0 s  Z' m$ T我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找到工具下载。

    该用户从未签到

     楼主| 发表于 2014-3-11 12:23:51 | 显示全部楼层
    tedaz 发表于 2014-3-10 20:04
    0 x- U4 J0 U0 e2 Y. i/ L我觉得有可能是“wikipedia_en_all_nopic_01_2014.zim”有问题,请问如何把zim转换成fastwiki的格式?没找 ...
    : H2 f7 f& c' c( @* o
    2 P0 l& C6 N& e7 B
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.
    $ a. {: B# W, D' Q& b; l* o: n' z不过 fastwiki-zim 没有用它的索引.
    2 W0 _& B4 g/ @. _fastwiki-zim 刚刚发布, 欢迎使用和测试.+ U! N7 x+ a  w# f- @6 p6 X
    % w2 _1 u) O: G' i0 Q) [

    该用户从未签到

    发表于 2014-3-11 22:03:55 | 显示全部楼层
    fastwiki 发表于 2014-3-11 12:23 - _5 B/ _! Z5 f# T" y# R$ a+ }; T
    应该是 wikipedia_en_all_nopic_01_2014.zim 的索引问题, 它的数据是对的.5 u, A+ I' j  R) ^, y, J" `/ `. ~
    不过 fastwiki-zim 没有用它 ...
    " p1 W; |. W  F7 a9 V
    fastwiki-zim转换出错了。源文件大约11.7GB,转出了0,1,2,3四个文件,其中后缀为.3的文件大小仅100多MB时就出错了。能在程序中加个异常处理,比如遇到异常时就写个log文件出来吗?
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-6 09:25:10 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-8-6 13:32 编辑
    + G5 C- b8 y) e4 [; i  a5 j' J0 k, m+ ?  u" A* P; o- u
    其实他的zim并非完美,在2013\2014年的中文zim中,有一些标签没有处理(中文特有如:{zh-cn:误区; zh-hant:誤解;}格式{zh-cn:...; zh-hant:...;}).
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-8-18 12:03:56 | 显示全部楼层
    解释一下
    3 }- D- k: E+ nC:\Documents and Settings\Administrator>H:\msys2\zim\fastwiki-zim-1.0-beta5.exe* h% |4 X4 }1 D: Z
    -l en -d 201407 -f H:\msys2\zim\libstdc++-api.zim
    ( f0 T$ ~; z* ^4 B: x/ Z# rtotal[0] = 849
    : y7 C9 X) }: X3 ^9 x9 x* v8 Y1 Call count=36962307, read_count=0, error=17695105
    " r7 ?, n) r$ Y9 \# C1 WPUB: fastwiki.math.en.201407 count=0, error=17695105
    ' _: \+ y# _1 w% n# A8 A8 i% rdone.
    : [; H1 U, p) W; H$ C3 C" B
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-7 21:40 , Processed in 0.021078 second(s), 21 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表