|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
/ w0 D8 K( W4 |, {( h
; H Y! w R$ X2 M9 mMdict词典DIY工具系列之三:MDX文本内容提取解析工具4 {% Y& s# [9 M; p2 ?
$ R: y8 L% ^% `5 H, _/ e
2 C! U' u1 |, ^
) e, W+ t. u4 P/ N3 O6 B基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
) ^" L9 p7 n/ w% B& H此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
: R' }( W; @& O! U" ?% D
- T$ V3 A5 A' L. `: o4 e# A/ j3 M$ _! F8 o5 v& r
用法:8 N' B& W7 v* B' d0 o
& x3 K6 K4 ?8 x+ ^
比如下面这个网页标签:, K/ ~6 r3 Z F- M- v
6 G7 b) b3 Q! t' ~. p
<div class="explanation_item" id="d1234">
( i8 O9 G( W$ M n2 q0 a( g8 X0 V
7 L3 c" N2 {% B- s/ N( _
' u9 k! e; A$ e1 O9 u标签名为 div
* j* [$ z3 ]5 i0 l# {. E0 f属性 有 class 和 id (还可能有别的属性). [ g% w3 g" t! i& v: O p
其属性对应的值:class的是explanation_item , id 的是d1234;
! Y3 i/ }1 P2 g" k7 C* f5 P
" c2 U" o' t& I" G9 M- O2 Y/ n D& j
若想提取这个标签的内容:
4 C4 [3 {$ }7 f' O8 n
. `: P% [: c6 Y; A+ g# ^" r& L需要输入三个值:div,class,explanation_item; }" M: F) E5 p b
或者:div,id,d1234 , i5 h7 q& [* w7 s& [$ \4 L9 c- A1 _
' _, ^' {9 [) \. o0 \
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
5 a$ F6 V1 e/ L2 U) P2 }, b+ \1 }$ E+ H
( [; E5 j1 v( N) ^6 |+ `4 ^5 T) {, |' f' y/ U6 X
1 ]; [" V, C. F) T: Q
输入方法:9 r* B4 N4 R9 Q, f" _
1 E- v# f- S6 M+ U5 n; k Input source file name:(你的MDX文本文件名)
0 X0 f7 d, R( \, v6 t Input tag-name:div
4 ^1 B( c M* V+ o2 X$ g+ I Input tag-attribute:class
# M+ }0 Q" s3 o8 m9 Q6 x Input attribute-value:explanation_item; {9 C' H$ M/ c* O5 Q
/ n/ V) U7 B0 X% H$ B( ~# b
或; v' ~" @( K; V* q
Input source file name:(你的MDX文本文件名)
% |* M" i+ _) O9 ` Input tag-name:div z9 S' Q9 W0 F4 I5 j! Y9 e* i
Input tag-attribute:id" t- {7 E" y$ y( a
Input attribute-value:d1234
1 J1 w$ G1 K* l/ ?% c7 N$ k7 q, [7 I1 d! R6 W1 f* D; A
如果没有属性,比如body
7 q7 q S, N8 \+ K; F5 L
* J5 g4 q) p7 n: n; C7 H+ X Input source file name:(你的MDX文本文件名)0 Z; X; v2 M) m. b% `
Input tag-name:body7 b5 f5 S& }1 f
Input tag-attribute:(不输入,回车跳过)4 g/ K2 h1 D8 h j' J9 c
Input attribute-value:(不输入,回车跳过); d0 n7 k! ]( Z" k! a
N; E' s: B/ V% s/ U4 m) u- F OK。。。。
2 O- a% H1 t* Q9 [) b3 {: K1 _2 o2 V3 V4 i( w; w$ `! j
: u3 O/ y9 L H! n
% Q6 Z( t, f/ \ g
?. r8 s( V% G9 ?由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。0 }6 V) u5 e* q- l7 o2 S) U, J
# F8 T: l9 J M% m& R; V" ~ |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|