分割xml/html等文件必备：xmlsplit

hyln9 · 发表于 2013-11-24 17:50:00

本帖最后由 hyln9 于 2013-11-24 22:55 编辑

之前打算制作英文维基20131104（https://www.pdawiki.com/forum/thread-11455-1-1.html），47.2GB的xml实在是让我无语，后来在o大的指导下找见了不错的replace pioneer,但是分割处理这么大的文件依然不给力。几经周折，找见了这款鲜为人知但是功能极为强大的xml分割工具，可以分割我的47.2gb的xml。售价貌似99刀，我只是想试用一下，没想到有1gb限制，所以自编程序怒破解之，分享给大家，但是仅限私下使用哦

此软件为英文，但是功能确实很强大，截几张图给大家吧：

ps:不知道为什么i-wiki大大的引擎出了什么问题，无法转换。问题是我随便转了某个较小的外语xml成功，转换这个却失败，悲催啊，求教

所以先放出这个工具给大家带来点方便。

破解方法：先安装程序。之后把XmlSplit_Crack.exe改名为XmlSplit.exe放入程序文件夹内覆盖原文件（源文件必须备份），运行程序，随便输XXX就注册成功了，然后恢复原来的XmlSplit.exe即可。天杀的360竟然报毒！请关闭360，注册完以后就可以打开360了。

http://pan.baidu.com/s/1eQoIY
密码pqw4

hyln9 · 发表于 2013-11-24 22:45:37

此楼备用

Oeasy · 发表于 2013-11-24 22:50:06

关于图片显示，论坛有bug，我是先把图片上传到相册（你看我https://pdawiki.com/forum/space-uid-147948.html相册里都100+张图了），再从相册中选择图片插入，注意验证回答上方“本地化远程图片”前的复选框不要勾选！！！这样图片就能大大地显示出来了。{:5_227:}

hyln9 · 发表于 2013-11-24 22:51:41

Oeasy 发表于 2013-11-24 22:50 6 r& e2 ~; K. N" p- h
关于图片显示，论坛有bug，我是先把图片上传到相册（你看我https://pdawiki.com/forum/space-uid-147948.htm ...

我说是怎么回事，谢谢了！

yisdict · 发表于 2013-11-24 22:55:32

可以试试superfan89的引擎，转出效果应该和aard一样，不过我没试过。

hyln9 · 发表于 2013-11-24 23:05:42

yisdict 发表于 2013-11-24 22:55 2 @' m! l: v" w6 o4 w" }
可以试试superfan89的引擎，转出效果应该和aard一样，不过我没试过。

谢谢，我试试！不过aard是什么？

hyln9 · 发表于 2013-11-24 23:08:59

本帖最后由 hyln9 于 2013-11-24 23:16 编辑

hyln9 发表于 2013-11-24 23:05
' i1 O- C; o" q' A谢谢，我试试！不过aard是什么？

哦，aard查到了，比我现在用的好啊！我现在用fastwiki和kiwix，前者有公式制作工具不过排版一般，后这简直是完美的无图wiki，但是英文版太大了只更新到了2012年，中文有2013的，不过有mdict版的了，也就不用了。

现在没有linux环境，看来得过一段时间再说了。另外期待唯吾无为老大的新引擎！

STFU · 发表于 2013-11-25 01:37:03

lz可以寫破解的程式?!
那怎麼沒試試寫解析的引擎?!

hyln9 · 发表于 2013-11-25 17:20:44

STFU 发表于 2013-11-25 01:37
5 S6 g! b/ g$ y7 [& Glz可以寫破解的程式?!
7 e6 h2 r. J9 s$ u9 A; R那怎麼沒試試寫解析的引擎?!

引擎太复杂，我又没时间

其实这个程序破解起来还是比较容易的,我就是把它的验证给替换了一下而已。

hyln9 · 发表于 2013-12-3 18:52:58

图片算是显示完整了

louislaolu · 发表于 2013-12-3 19:28:37

凡是能够编写程序，我都100分的崇拜。

163.wangg · 发表于 2014-11-26 11:07:25

辛苦支持

blueyi · 发表于 2014-12-29 13:56:42

能不能再发分享一次，谢谢

blueyi · 发表于 2014-12-31 13:10:51

楼主能不能把那XMLSPLIT再给我分享一份，谢谢

timrabin · 发表于 2018-5-14 00:42:57

求分享xmlsplit，打不开了。谢谢！

GL_n · 发表于 2018-5-14 06:21:32

请问楼主@hyln9能否重新分享一下你的百度盘链接？

zengjatzau · 发表于 2018-11-16 20:03:31

网盘链接已失效，能否再分享一次?

mikeee · 发表于 2018-11-16 21:27:49

'''$ L: w1 k# B3 Y9 v
Based on xmllarge.py4 ~$ c* k/ @% G* W" Z8 Y! y
'''
' A% G8 h/ u0 E7 e$ B( s
# from pyquery import PyQuery as pq
+ R5 u( c5 r3 B2 r7 P* U
from pathlib import Path! f, [) L- i* N
! c, @ T8 |* Z5 q' F
! b8 F! \1 y4 I @! F
def xml_iter(file, tag):
% ^9 e/ N' Z' e9 S+ l z4 Y- Z( z' t
'''7 ~5 r( w( Q7 J" S
Process huge xml files! f+ ?5 n: c) q; f2 A; U
<tag> </tag> need to be in separate lines" u8 c% J( V( ^4 {' a* }
# TODO: in the middle of lines: n- v+ L5 k; k; _; T
7 v9 B6 ?# r3 i s, L
:file: file path
$ F- }! W$ O- s2 I4 o; v
:tag: element to retrieve
# _0 D8 h* Q7 f0 L
'''. a0 c t. {. h4 X
tagb1 = '<' + tag + '>': Y/ ?# ^% O& X( M; b. ~
tagb1 = tagb1.encode()7 K! k# [9 b& H7 `
0 M% f# D! W( N% q
& T6 h; d. M, W- w: C, t+ Y
tagb2 = '<' + tag + ' '
0 w0 J& _7 g* e: G0 o- i
tagb2 = tagb2.encode()
& v$ f% b# A# L* M7 ^
" j, ~0 j4 Z2 @3 e
tagb3 = '</' + tag + '>'2 {; @% h1 g' I7 Z0 b$ \" r
tagb3 = tagb3.encode()( h7 A2 ?- Z- t8 K* {, k# \, A
$ x) O3 Y8 ~7 R: V8 Z6 D
with open(file, 'rb') as inputfile:
' e$ r( W2 }3 _; T5 A' u* X4 Y4 i
append = False
, C+ R+ J* g, C
for line in inputfile:
7 _* _( h! g0 s1 ]' c
#~ if b'<tu>' in line or b'<tu ' in line:
7 F R! r4 i7 ]; `+ b
if tagb1 in line:
d! [: L2 J! S7 Z6 o
inputbuffer = line[line.index(tagb1):]
3 ]$ b. k9 c2 D' _
append = True
4 {$ N+ R8 _2 J/ b3 ~9 z7 J9 {- t
elif tagb2 in line:
+ C$ N* ^) @/ ~: D l4 d) c6 d! {4 B
inputbuffer = line[line.index(tagb2):]5 e* z$ t9 w; g( f- h
append = True
$ K2 T' c; S& Y# v8 U/ Y7 ~
#~ elif b'</tu>' in line:
( X. e* q4 Y, J) x& D" B3 M! t
elif tagb3 in line:6 S7 L+ P* T8 I ~
inputbuffer += line[:line.index(tagb3) + len(tagb3)]+ n* C4 c6 f: |3 D0 u, g1 l
append = False
3 E; C- F" }- z+ Q2 Z
yield inputbuffer
& i) J( J9 K) p" e' b: N
#~ docitem = process_buffer(inputbuffer, id_num)5 y9 y" r7 k/ P: H* C: U% Y
#~ print(id_num), `3 t( ^% w& X2 v4 |; j
#~ id_num += 1
9 D6 G% Q3 K: u% x4 I
inputbuffer = b''/ p/ L$ p) ~1 y2 l; _% B
elif append:6 A0 e7 L- e5 V: V0 X z4 x. x# l
inputbuffer += line

复制代码

这么多人找这东西？我过一阵打包发个小工具。

上面的python3函数用法
resu = ''
for elm in xml_iter(filename, 'tu'):
resu += elm

内存足迹极小……不管文件多大。

jonah_w · 发表于 2019-1-19 18:47:48

这个工具链接失效了，可以再分享下么

jonah_w · 发表于 2019-1-19 18:48:19

mikeee 发表于 2018-11-16 21:27
# S X6 v; m' s" y% I }1 K) L这么多人找这东西？我过一阵打包发个小工具。
( C& {5 j# R; \ d
6 ?6 A" K( b* N上面的python3函数用法

就喜欢这种一言不合自己写工具的，后面看看你的代码

		自动登录	找回密码
密码			免费注册

[工具] 分割xml/html等文件必备：xmlsplit

本帖子中包含更多资源