掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3953|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 ) M, i$ B1 I1 K. `
) E/ x: M9 v8 i' Q, ~
Mdict词典DIY工具系列之三:MDX文本内容提取解析工具! Z1 p7 Y0 B; {) n; b8 I+ x! y
4 S' F& F- T5 e

% [) ^/ W1 ^' U) c* `- ]& t! u. l8 `1 k$ R0 G. C
基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
8 o& a/ T7 Z9 q) n2 \. {) t0 H7 }此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。: s5 t7 T3 J# u7 S! _& C1 J
2 M. b. x$ ]4 T5 Z- g* E

) i5 [2 q7 I% e1 l$ ]& y2 P用法:
7 M4 e" j  J+ c/ q' J0 `
+ @* p5 h- f  I! _  J% ]% w4 |6 `比如下面这个网页标签:; D# p, c2 o( o* z1 D( d; C
- b5 R  U  P" ^  o# f  _
<div class="explanation_item" id="d1234">
- \/ i9 ~. w' e  P4 i. e" U+ |* D$ t/ O" L) _" S

2 n" Z% H! Z8 d8 F4 ?标签名为  div; i' P9 V7 L; ]8 J$ o  X" t
属性 有 class 和 id (还可能有别的属性)$ t% p; V  \7 b" m( b, p
其属性对应的值:class的是explanation_item ,  id 的是d1234;
) b# }% h3 v' h& T0 V3 j9 B
' M( t! q" w, I. K4 _1 N# r+ h+ {
若想提取这个标签的内容:
0 _# a) X2 `6 j2 V
, @8 x) A. K0 M  z' U' M& P4 q需要输入三个值:div,class,explanation_item
$ f1 E/ O" b# b; j          或者:div,id,d1234 : H8 m  W! d1 h7 i& u" ^7 y/ U

- @  a" \* b3 n还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
. U2 P6 ~! P3 ~7 R1 k( q% C2 Z5 w8 }8 k  H: F: w4 D) ?6 S
1 Q. I% ?  {  Z( Q, `. ^1 X% K
# O( v" N; o& A+ n7 K
输入方法:
/ O6 f8 U: E. ~6 {/ y
+ [+ W* X6 [& H: k! z        Input source file name:(你的MDX文本文件名)
! `0 D+ _' R5 X- Z  h        Input tag-name:div% D  J' H9 a+ k% ^+ P# D/ w
        Input tag-attribute:class
/ f' U5 |+ w. ?& a        Input attribute-value:explanation_item
' n5 N6 k( E  T
- W3 \2 ~. l5 X$ y, Y$ u5 i; r
4 s' M7 V% x$ m. @8 V6 \        Input source file name:(你的MDX文本文件名)1 `! d" y6 |/ T, `* }( E+ n1 r
        Input tag-name:div
& m. }* E  d2 W+ L        Input tag-attribute:id9 T, G" D# N) t) W4 n6 W+ B
        Input attribute-value:d1234
5 Z% o" O: b1 L% F, i; C9 J8 I% `
如果没有属性,比如body
2 V( \- q; K( ^/ P4 |3 J
' g, Z2 P& S5 ^$ @" g        Input source file name:(你的MDX文本文件名)
$ D$ U" h/ y* b4 l        Input tag-name:body
$ U. |; ]% U2 E$ }. o        Input tag-attribute:(不输入,回车跳过)
9 y2 U+ G4 U% ]; j" R        Input attribute-value:(不输入,回车跳过)) M( J  V( Y1 J
! K. @. K) e3 e# J
        OK。。。。- F. Q% A) C* h6 k; }9 p8 ]. G1 u6 I

6 X% E) t) `& d8 a+ {
5 T3 ~6 l9 S% n. o2 |* s* l# t: a+ \  @$ Z& c% \5 @( |( L

) E, t. ]/ B/ B1 `8 A) e由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。. |: G2 h% o- h: v6 u4 ~5 Z

3 N8 }5 N  M1 ]4 X) m6 @; U5 H8 k, a9 Y

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    昨天 17:45
  • 签到天数: 1451 天

    [LV.10]以坛为家III

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 22:28
  • 签到天数: 1745 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2024-4-18 10:17
  • 签到天数: 929 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑
    ; D9 H3 c( ?; L5 |5 r; b: j
    3 y2 g( D# L3 N2 r9 a支持参数式命令行吗带空格类名怎么办3 {- X- g0 g8 B: `7 ~# s- Q
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-4 22:09 , Processed in 0.088965 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表