分割xml/html等文件必备：xmlsplit

hyln9 · 发表于 2013-11-24 17:50:00

本帖最后由 hyln9 于 2013-11-24 22:55 编辑

之前打算制作英文维基20131104（https://www.pdawiki.com/forum/thread-11455-1-1.html），47.2GB的xml实在是让我无语，后来在o大的指导下找见了不错的replace pioneer,但是分割处理这么大的文件依然不给力。几经周折，找见了这款鲜为人知但是功能极为强大的xml分割工具，可以分割我的47.2gb的xml。售价貌似99刀，我只是想试用一下，没想到有1gb限制，所以自编程序怒破解之，分享给大家，但是仅限私下使用哦

此软件为英文，但是功能确实很强大，截几张图给大家吧：

ps:不知道为什么i-wiki大大的引擎出了什么问题，无法转换。问题是我随便转了某个较小的外语xml成功，转换这个却失败，悲催啊，求教

所以先放出这个工具给大家带来点方便。

破解方法：先安装程序。之后把XmlSplit_Crack.exe改名为XmlSplit.exe放入程序文件夹内覆盖原文件（源文件必须备份），运行程序，随便输XXX就注册成功了，然后恢复原来的XmlSplit.exe即可。天杀的360竟然报毒！请关闭360，注册完以后就可以打开360了。

http://pan.baidu.com/s/1eQoIY
密码pqw4

hyln9 · 发表于 2013-11-24 22:45:37

此楼备用

Oeasy · 发表于 2013-11-24 22:50:06

关于图片显示，论坛有bug，我是先把图片上传到相册（你看我https://pdawiki.com/forum/space-uid-147948.html相册里都100+张图了），再从相册中选择图片插入，注意验证回答上方“本地化远程图片”前的复选框不要勾选！！！这样图片就能大大地显示出来了。{:5_227:}

hyln9 · 发表于 2013-11-24 22:51:41

Oeasy 发表于 2013-11-24 22:50 % {5 s6 C- T; H8 A i' T, P
关于图片显示，论坛有bug，我是先把图片上传到相册（你看我https://pdawiki.com/forum/space-uid-147948.htm ...

我说是怎么回事，谢谢了！

yisdict · 发表于 2013-11-24 22:55:32

可以试试superfan89的引擎，转出效果应该和aard一样，不过我没试过。

hyln9 · 发表于 2013-11-24 23:05:42

yisdict 发表于 2013-11-24 22:55
7 s, M5 H M/ @: n$ D9 C: l. G6 s可以试试superfan89的引擎，转出效果应该和aard一样，不过我没试过。

谢谢，我试试！不过aard是什么？

hyln9 · 发表于 2013-11-24 23:08:59

本帖最后由 hyln9 于 2013-11-24 23:16 编辑

hyln9 发表于 2013-11-24 23:05 ! B3 k! W# C% L
谢谢，我试试！不过aard是什么？

哦，aard查到了，比我现在用的好啊！我现在用fastwiki和kiwix，前者有公式制作工具不过排版一般，后这简直是完美的无图wiki，但是英文版太大了只更新到了2012年，中文有2013的，不过有mdict版的了，也就不用了。

现在没有linux环境，看来得过一段时间再说了。另外期待唯吾无为老大的新引擎！

STFU · 发表于 2013-11-25 01:37:03

lz可以寫破解的程式?!
那怎麼沒試試寫解析的引擎?!

hyln9 · 发表于 2013-11-25 17:20:44

STFU 发表于 2013-11-25 01:37 ( C( o3 d n$ M8 K3 O2 K
lz可以寫破解的程式?!
- {2 D: H* ~9 p, B* B8 K8 ~那怎麼沒試試寫解析的引擎?!

引擎太复杂，我又没时间

其实这个程序破解起来还是比较容易的,我就是把它的验证给替换了一下而已。

hyln9 · 发表于 2013-12-3 18:52:58

图片算是显示完整了

louislaolu · 发表于 2013-12-3 19:28:37

凡是能够编写程序，我都100分的崇拜。

163.wangg · 发表于 2014-11-26 11:07:25

辛苦支持

blueyi · 发表于 2014-12-29 13:56:42

能不能再发分享一次，谢谢

blueyi · 发表于 2014-12-31 13:10:51

楼主能不能把那XMLSPLIT再给我分享一份，谢谢

timrabin · 发表于 2018-5-14 00:42:57

求分享xmlsplit，打不开了。谢谢！

GL_n · 发表于 2018-5-14 06:21:32

请问楼主@hyln9能否重新分享一下你的百度盘链接？

zengjatzau · 发表于 2018-11-16 20:03:31

网盘链接已失效，能否再分享一次?

mikeee · 发表于 2018-11-16 21:27:49

'''1 V+ F9 w) z: i' f9 n
Based on xmllarge.py- V% a8 U3 S! r q0 `
'''- t, q7 ~) L! _% X+ B' d
# from pyquery import PyQuery as pq1 p! D9 U" I; H: ~
from pathlib import Path
3 \+ L9 r& k" b7 b8 w
; w# Y2 a0 e! N$ F9 R- k0 o& W- o2 d- i
& g9 ~$ e9 P+ R: H" j1 c5 K
def xml_iter(file, tag):9 i( }. k/ j' D {- A6 d
'''
L4 e& b8 q+ k' m
Process huge xml files
1 @6 G" V: I5 ~: K9 ~
<tag> </tag> need to be in separate lines% V9 H* P5 e+ U& ^& N
# TODO: in the middle of lines y' w) u% `& x, W9 e w( b. ]
, h# T. ^+ z. d! v: A* \6 l
:file: file path
; v/ v5 r; {9 o# l5 R' l
:tag: element to retrieve
. R/ d- W- _, v- U- F8 O& c0 `
'''
3 e; M# R/ n3 E7 P/ u
tagb1 = '<' + tag + '>'
4 C- d' E4 Y/ Q* j/ e
tagb1 = tagb1.encode()! u% N0 j' s6 I- T' |
2 z; A- D" E) k% M
( w) t; q4 F/ ?0 r( k. p# A5 j
tagb2 = '<' + tag + ' '
6 S; j4 n# j. B- i
tagb2 = tagb2.encode()- v( y3 \& _5 t
8 Z2 o/ j& H' ^* q" q2 w4 Q9 P2 \
tagb3 = '</' + tag + '>'
. ^4 B2 ?5 c$ y- w: h; R1 z7 y
tagb3 = tagb3.encode()# r4 C) ^- z2 Y+ V
0 o3 U4 V3 P1 z. z2 O0 H8 S
with open(file, 'rb') as inputfile:6 j( [: g, G n# W/ {& {( v. @
append = False
& V* A3 P: C( i2 l* j
for line in inputfile:# W# z. P: B- @: Y6 U+ R
#~ if b'<tu>' in line or b'<tu ' in line:
1 M+ O" j9 V W" p
if tagb1 in line:. n. R/ @, [1 G( a
inputbuffer = line[line.index(tagb1):]' h3 W8 h H$ E0 I; F. D& i) A; ^
append = True0 S: i5 |. w# A" A, }# y: @! x- m. s2 s
elif tagb2 in line:% o! x7 W$ {- e2 v4 `1 E
inputbuffer = line[line.index(tagb2):]
( C" g5 S3 X0 ]0 Q9 c1 t4 N5 r
append = True
8 K2 d& C# k8 ^& ?. J( X
#~ elif b'</tu>' in line:: y& s) b. z! r z& T; ]
elif tagb3 in line:
! F" K" p: Z3 g" F, i7 d
inputbuffer += line[:line.index(tagb3) + len(tagb3)]
+ A, ^& ~3 S/ n: ^: u: P
append = False' `3 t. Z2 e% l: j
yield inputbuffer
@ P3 C9 R4 A) B- _6 x
#~ docitem = process_buffer(inputbuffer, id_num)
/ ^( e8 j' U1 k$ p6 s7 N
#~ print(id_num)5 Y: e( Q1 N" ]" D# u
#~ id_num += 1
! e& Z4 q r) u
inputbuffer = b''
2 v( ^: _" j- P* D5 v. X! o# ]
elif append:% y; A8 N; G/ F. P: l
inputbuffer += line

复制代码

这么多人找这东西？我过一阵打包发个小工具。

上面的python3函数用法
resu = ''
for elm in xml_iter(filename, 'tu'):
resu += elm

内存足迹极小……不管文件多大。

jonah_w · 发表于 2019-1-19 18:47:48

这个工具链接失效了，可以再分享下么

jonah_w · 发表于 2019-1-19 18:48:19

mikeee 发表于 2018-11-16 21:27 j0 ~! t& F& n4 o+ \
这么多人找这东西？我过一阵打包发个小工具。 |$ `/ n. n3 L( a- m% c A
; l0 Y% m5 s! D6 m" Q
上面的python3函数用法

就喜欢这种一言不合自己写工具的，后面看看你的代码

		自动登录	找回密码
密码			免费注册

[工具] 分割xml/html等文件必备：xmlsplit

本帖子中包含更多资源