掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 3952|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑 ' p. V3 V/ o3 S7 Y: q$ Z

" T- O/ K- x: HMdict词典DIY工具系列之三:MDX文本内容提取解析工具0 O5 Q- T" k% o! X, x
: O. e# U& _# Y' d% C# H
. n2 D% K6 `2 f) |  ^9 M" w

/ t/ P0 ^+ |1 R& p基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
# R2 _8 b- z1 u: j此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
/ x3 @- Z% n+ c. N7 K
/ E/ q% |# ]; s' G  b$ o+ w2 e: L9 Z2 Q
用法:7 X0 t2 z& @0 f/ r( @

/ D! `. g( Z+ ]8 `. f5 ~: L3 S比如下面这个网页标签:1 O; v3 H; R4 l# e6 `
/ c: m% A3 S3 w  R2 n2 ^! r2 z
<div class="explanation_item" id="d1234">
# e) \0 P0 h, x4 \6 v: J. N* ]
* R' x1 a& N6 ]) r0 c
4 T! g& O9 i" v5 o' @标签名为  div
! j/ ]& B  @# Z, g属性 有 class 和 id (还可能有别的属性)
3 C. v* u9 Z( X( {- |; ?5 G. }: F: A其属性对应的值:class的是explanation_item ,  id 的是d1234;
& U  r$ M# x' v8 V  Q6 W# O* D% u' }3 a8 ]- ~4 h* ^& Q
1 p* i9 T& t1 X0 H+ }
若想提取这个标签的内容:" |' ]: ?8 w: N9 x

/ c, C! P/ x3 M: {需要输入三个值:div,class,explanation_item
9 s4 c) ?: W8 u+ b          或者:div,id,d1234
5 Q' T7 {8 h6 ^6 G$ |4 X3 F3 w% T+ B
4 ?9 O# `; I( e8 D: Q5 k还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可: W3 F; f5 c1 d
1 @) Z  T$ A2 q2 |
# C: k8 s, }1 ~. [0 }
& }/ g) G7 Y" D  a+ B4 r
输入方法:* t3 W6 t. p+ o

6 d# J) [$ c: e5 @% i3 b        Input source file name:(你的MDX文本文件名)- B7 }: l/ \3 v2 |
        Input tag-name:div
% Z6 x1 N2 B4 p+ i, i: B# M$ z        Input tag-attribute:class
3 E- T( M. A; E" ~" m        Input attribute-value:explanation_item3 ]; w3 Z5 V1 G6 i- N3 E
8 L: c; D/ g& p- M. p3 m

! h1 j2 V3 [! n5 B# g        Input source file name:(你的MDX文本文件名)+ K: x& f0 O4 [' c4 }5 C6 Z, ^
        Input tag-name:div
' Z. _4 o" z0 l4 |3 e        Input tag-attribute:id7 v; Q! H* u# b
        Input attribute-value:d1234
* r' k& T( h# z) s
1 c* o: ~3 V  X& Q! ~' W如果没有属性,比如body
9 X: Z! ]( k+ p4 l
& ]( C3 H) v& z4 i        Input source file name:(你的MDX文本文件名)% m4 r3 }! s) y  Y' ~
        Input tag-name:body
; q- a/ l" ^" r. |9 G$ K        Input tag-attribute:(不输入,回车跳过)4 |, w) q, L* ^4 J! s( B0 v
        Input attribute-value:(不输入,回车跳过)
$ e& r' d3 z: R2 Y* X0 Q% k4 b
; g, H+ ~* G, T) A9 ~- g# U        OK。。。。
% r* r2 G0 b, k' [5 p: U: R8 F4 G' B; G% L8 u% p8 m2 h" F. q) }
$ v6 c3 @% {& w* c6 p

5 V3 t9 w' j; Z$ m* }) |- }& P9 ~( d4 V$ T0 x9 ~+ _( A: |5 R  k
由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。
2 V1 M+ `7 C  Y  \& k" S: W9 n
% L1 p  Q" X. R5 w; D) [, T3 k

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    昨天 17:45
  • 签到天数: 1451 天

    [LV.10]以坛为家III

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 22:28
  • 签到天数: 1745 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    2024-4-18 10:17
  • 签到天数: 929 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑
    % `: n' k1 _8 _8 v1 Z* E8 L6 ~2 A
    5 g6 d0 k$ F. y) n8 |# w: p支持参数式命令行吗带空格类名怎么办' a$ q# z! d, v* h
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-4 21:52 , Processed in 0.050341 second(s), 9 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表