|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 ' p. V3 V/ o3 S7 Y: q$ Z
" T- O/ K- x: HMdict词典DIY工具系列之三:MDX文本内容提取解析工具0 O5 Q- T" k% o! X, x
: O. e# U& _# Y' d% C# H
. n2 D% K6 `2 f) | ^9 M" w
/ t/ P0 ^+ |1 R& p基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
# R2 _8 b- z1 u: j此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
/ x3 @- Z% n+ c. N7 K
/ E/ q% |# ]; s' G b$ o+ w2 e: L9 Z2 Q
用法:7 X0 t2 z& @0 f/ r( @
/ D! `. g( Z+ ]8 `. f5 ~: L3 S比如下面这个网页标签:1 O; v3 H; R4 l# e6 `
/ c: m% A3 S3 w R2 n2 ^! r2 z
<div class="explanation_item" id="d1234">
# e) \0 P0 h, x4 \6 v: J. N* ]
* R' x1 a& N6 ]) r0 c
4 T! g& O9 i" v5 o' @标签名为 div
! j/ ]& B @# Z, g属性 有 class 和 id (还可能有别的属性)
3 C. v* u9 Z( X( {- |; ?5 G. }: F: A其属性对应的值:class的是explanation_item , id 的是d1234;
& U r$ M# x' v8 V Q6 W# O* D% u' }3 a8 ]- ~4 h* ^& Q
1 p* i9 T& t1 X0 H+ }
若想提取这个标签的内容:" |' ]: ?8 w: N9 x
/ c, C! P/ x3 M: {需要输入三个值:div,class,explanation_item
9 s4 c) ?: W8 u+ b 或者:div,id,d1234
5 Q' T7 {8 h6 ^6 G$ |4 X3 F3 w% T+ B
4 ?9 O# `; I( e8 D: Q5 k还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可: W3 F; f5 c1 d
1 @) Z T$ A2 q2 |
# C: k8 s, }1 ~. [0 }
& }/ g) G7 Y" D a+ B4 r
输入方法:* t3 W6 t. p+ o
6 d# J) [$ c: e5 @% i3 b Input source file name:(你的MDX文本文件名)- B7 }: l/ \3 v2 |
Input tag-name:div
% Z6 x1 N2 B4 p+ i, i: B# M$ z Input tag-attribute:class
3 E- T( M. A; E" ~" m Input attribute-value:explanation_item3 ]; w3 Z5 V1 G6 i- N3 E
8 L: c; D/ g& p- M. p3 m
或
! h1 j2 V3 [! n5 B# g Input source file name:(你的MDX文本文件名)+ K: x& f0 O4 [' c4 }5 C6 Z, ^
Input tag-name:div
' Z. _4 o" z0 l4 |3 e Input tag-attribute:id7 v; Q! H* u# b
Input attribute-value:d1234
* r' k& T( h# z) s
1 c* o: ~3 V X& Q! ~' W如果没有属性,比如body
9 X: Z! ]( k+ p4 l
& ]( C3 H) v& z4 i Input source file name:(你的MDX文本文件名)% m4 r3 }! s) y Y' ~
Input tag-name:body
; q- a/ l" ^" r. |9 G$ K Input tag-attribute:(不输入,回车跳过)4 |, w) q, L* ^4 J! s( B0 v
Input attribute-value:(不输入,回车跳过)
$ e& r' d3 z: R2 Y* X0 Q% k4 b
; g, H+ ~* G, T) A9 ~- g# U OK。。。。
% r* r2 G0 b, k' [5 p: U: R8 F4 G' B; G% L8 u% p8 m2 h" F. q) }
$ v6 c3 @% {& w* c6 p
5 V3 t9 w' j; Z$ m* }) |- }& P9 ~( d4 V$ T0 x9 ~+ _( A: |5 R k
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
2 V1 M+ `7 C Y \& k" S: W9 n
% L1 p Q" X. R5 w; D) [, T3 k |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|