|
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 ) M, i$ B1 I1 K. `
) E/ x: M9 v8 i' Q, ~
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具! Z1 p7 Y0 B; {) n; b8 I+ x! y
4 S' F& F- T5 e
% [) ^/ W1 ^' U) c* `- ]& t! u. l8 `1 k$ R0 G. C
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
8 o& a/ T7 Z9 q) n2 \. {) t0 H7 }此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。: s5 t7 T3 J# u7 S! _& C1 J
2 M. b. x$ ]4 T5 Z- g* E
) i5 [2 q7 I% e1 l$ ]& y2 P用法:
7 M4 e" j J+ c/ q' J0 `
+ @* p5 h- f I! _ J% ]% w4 |6 `比如下面这个网页标签:; D# p, c2 o( o* z1 D( d; C
- b5 R U P" ^ o# f _
<div class="explanation_item" id="d1234">
- \/ i9 ~. w' e P4 i. e" U+ |* D$ t/ O" L) _" S
2 n" Z% H! Z8 d8 F4 ?标签名为 div; i' P9 V7 L; ]8 J$ o X" t
属性 有 class 和 id (还可能有别的属性)$ t% p; V \7 b" m( b, p
其属性对应的值:class的是explanation_item , id 的是d1234;
) b# }% h3 v' h& T0 V3 j9 B
' M( t! q" w, I. K4 _1 N# r+ h+ {
若想提取这个标签的内容:
0 _# a) X2 `6 j2 V
, @8 x) A. K0 M z' U' M& P4 q需要输入三个值:div,class,explanation_item
$ f1 E/ O" b# b; j 或者:div,id,d1234 : H8 m W! d1 h7 i& u" ^7 y/ U
- @ a" \* b3 n还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
. U2 P6 ~! P3 ~7 R1 k( q% C2 Z5 w8 }8 k H: F: w4 D) ?6 S
1 Q. I% ? { Z( Q, `. ^1 X% K
# O( v" N; o& A+ n7 K
输入方法:
/ O6 f8 U: E. ~6 {/ y
+ [+ W* X6 [& H: k! z Input source file name:(你的MDX文本文件名)
! `0 D+ _' R5 X- Z h Input tag-name:div% D J' H9 a+ k% ^+ P# D/ w
Input tag-attribute:class
/ f' U5 |+ w. ?& a Input attribute-value:explanation_item
' n5 N6 k( E T
- W3 \2 ~. l5 X$ y, Y$ u5 i; r或
4 s' M7 V% x$ m. @8 V6 \ Input source file name:(你的MDX文本文件名)1 `! d" y6 |/ T, `* }( E+ n1 r
Input tag-name:div
& m. }* E d2 W+ L Input tag-attribute:id9 T, G" D# N) t) W4 n6 W+ B
Input attribute-value:d1234
5 Z% o" O: b1 L% F, i; C9 J8 I% `
如果没有属性,比如body
2 V( \- q; K( ^/ P4 |3 J
' g, Z2 P& S5 ^$ @" g Input source file name:(你的MDX文本文件名)
$ D$ U" h/ y* b4 l Input tag-name:body
$ U. |; ]% U2 E$ }. o Input tag-attribute:(不输入,回车跳过)
9 y2 U+ G4 U% ]; j" R Input attribute-value:(不输入,回车跳过)) M( J V( Y1 J
! K. @. K) e3 e# J
OK。。。。- F. Q% A) C* h6 k; }9 p8 ]. G1 u6 I
6 X% E) t) `& d8 a+ {
5 T3 ~6 l9 S% n. o2 |* s* l# t: a+ \ @$ Z& c% \5 @( |( L
) E, t. ]/ B/ B1 `8 A) e由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。. |: G2 h% o- h: v6 u4 ~5 Z
3 N8 }5 N M1 ]4 X) m6 @; U5 H8 k, a9 Y |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
本帖被以下淘专辑推荐:
- · 工具|主题: 8, 订阅: 5
- · 其他资料|主题: 24, 订阅: 1
|