掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 5129|回复: 16

[工具] Mdict词典DIY工具系列之三:MDX文本内容提取解析工具

[复制链接]

该用户从未签到

发表于 2016-8-8 22:30:18 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-9 21:35 编辑
/ w0 D8 K( W4 |, {( h
; H  Y! w  R$ X2 M9 mMdict词典DIY工具系列之三:MDX文本内容提取解析工具4 {% Y& s# [9 M; p2 ?

$ R: y8 L% ^% `5 H, _/ e
2 C! U' u1 |, ^
) e, W+ t. u4 P/ N3 O6 B基于html网页解析,专用于MDX文本解析并自动生成MDX格式文本,生成的文件可直接压缩打包成词典;
) ^" L9 p7 n/ w% B& H此工具可用来提取词典内容中的特定内容并,比如短语提取,音标提取等一切你想提取的内容。
: R' }( W; @& O! U" ?% D
- T$ V3 A5 A' L. `: o4 e# A/ j3 M$ _! F8 o5 v& r
用法:8 N' B& W7 v* B' d0 o
& x3 K6 K4 ?8 x+ ^
比如下面这个网页标签:, K/ ~6 r3 Z  F- M- v
6 G7 b) b3 Q! t' ~. p
<div class="explanation_item" id="d1234">
( i8 O9 G( W$ M  n2 q0 a( g8 X0 V
7 L3 c" N2 {% B- s/ N( _
' u9 k! e; A$ e1 O9 u标签名为  div
* j* [$ z3 ]5 i0 l# {. E0 f属性 有 class 和 id (还可能有别的属性). [  g% w3 g" t! i& v: O  p
其属性对应的值:class的是explanation_item ,  id 的是d1234;
! Y3 i/ }1 P2 g" k7 C* f5 P
" c2 U" o' t& I" G9 M- O2 Y/ n  D& j
若想提取这个标签的内容:
4 C4 [3 {$ }7 f' O8 n
. `: P% [: c6 Y; A+ g# ^" r& L需要输入三个值:div,class,explanation_item; }" M: F) E5 p  b
          或者:div,id,d1234 , i5 h7 q& [* w7 s& [$ \4 L9 c- A1 _
' _, ^' {9 [) \. o0 \
还有可能只有标签名,比如<body>这个标签,那么在(tag_name)输入框输入:body,其余不两项不用输入,直接回车即可
5 a$ F6 V1 e/ L2 U) P2 }, b+ \1 }$ E+ H
( [; E5 j1 v( N) ^6 |+ `4 ^5 T) {, |' f' y/ U6 X
1 ]; [" V, C. F) T: Q
输入方法:9 r* B4 N4 R9 Q, f" _

1 E- v# f- S6 M+ U5 n; k        Input source file name:(你的MDX文本文件名)
0 X0 f7 d, R( \, v6 t        Input tag-name:div
4 ^1 B( c  M* V+ o2 X$ g+ I        Input tag-attribute:class
# M+ }0 Q" s3 o8 m9 Q6 x        Input attribute-value:explanation_item; {9 C' H$ M/ c* O5 Q
/ n/ V) U7 B0 X% H$ B( ~# b
; v' ~" @( K; V* q
        Input source file name:(你的MDX文本文件名)
% |* M" i+ _) O9 `        Input tag-name:div  z9 S' Q9 W0 F4 I5 j! Y9 e* i
        Input tag-attribute:id" t- {7 E" y$ y( a
        Input attribute-value:d1234
1 J1 w$ G1 K* l/ ?% c7 N$ k7 q, [7 I1 d! R6 W1 f* D; A
如果没有属性,比如body
7 q7 q  S, N8 \+ K; F5 L
* J5 g4 q) p7 n: n; C7 H+ X        Input source file name:(你的MDX文本文件名)0 Z; X; v2 M) m. b% `
        Input tag-name:body7 b5 f5 S& }1 f
        Input tag-attribute:(不输入,回车跳过)4 g/ K2 h1 D8 h  j' J9 c
        Input attribute-value:(不输入,回车跳过); d0 n7 k! ]( Z" k! a

  N; E' s: B/ V% s/ U4 m) u- F        OK。。。。
2 O- a% H1 t* Q9 [) b3 {: K1 _2 o2 V3 V4 i( w; w$ `! j
: u3 O/ y9 L  H! n

% Q6 Z( t, f/ \  g
  ?. r8 s( V% G9 ?由于是逐个解析html, 所以速度不是那么快,但使用足够简便,很方便。0 }6 V) u5 e* q- l7 o2 S) U, J

# F8 T: l9 J  M% m& R; V" ~

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

本帖被以下淘专辑推荐:

该用户从未签到

发表于 2016-8-9 22:21:44 | 显示全部楼层
这是偶需要的工具,qiuhao1112老大 I love you

该用户从未签到

发表于 2016-8-15 22:17:38 | 显示全部楼层
下载回帖,回头慢慢学习怎么用,谢谢楼主无私分享

该用户从未签到

发表于 2016-8-20 23:33:19 | 显示全部楼层
谢谢楼主的分享!这个绝对要顶!!!
  • TA的每日心情
    开心
    2024-7-8 11:31
  • 签到天数: 1502 天

    [LV.Master]伴坛终老

    发表于 2016-8-21 16:17:34 | 显示全部楼层
    回头慢慢学习怎么用,谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-8-31 14:26:12 | 显示全部楼层
    dddddddddddddddd
  • TA的每日心情
    奋斗
    昨天 22:51
  • 签到天数: 1986 天

    [LV.Master]伴坛终老

    发表于 2016-9-1 22:31:28 | 显示全部楼层
    谢谢楼主无私分享!

    该用户从未签到

    发表于 2016-9-26 08:39:29 | 显示全部楼层
    谢谢,这是MDICT的五个工具!

    该用户从未签到

    发表于 2016-10-12 21:59:22 | 显示全部楼层
    神器啊 多多益善

    该用户从未签到

    发表于 2017-1-6 14:44:31 | 显示全部楼层
    下载解压显示 文件错误  
  • TA的每日心情
    开心
    昨天 10:33
  • 签到天数: 965 天

    [LV.10]以坛为家III

    发表于 2018-2-13 23:44:06 | 显示全部楼层
    求教:如果是要提取词典里面的例句的话,该如何用这个软件提取呢?谢谢
  • TA的每日心情
    开心
    2018-2-20 00:08
  • 签到天数: 11 天

    [LV.3]偶尔看看II

    发表于 2018-2-17 11:49:43 | 显示全部楼层
    自己学习试试下,非常好
  • TA的每日心情

    2021-10-23 19:58
  • 签到天数: 212 天

    [LV.7]常住居民III

    发表于 2020-2-9 06:46:52 | 显示全部楼层
    本帖最后由 lemonlab 于 2020-2-9 10:32 编辑 ; o; h2 _9 c5 ^2 f4 e2 K
    7 H4 h. d7 Q2 j  X6 m% G
    支持参数式命令行吗带空格类名怎么办6 k% n9 H2 N/ ~* W6 @0 d4 I2 h0 \# b
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-19 23:00 , Processed in 0.023295 second(s), 24 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表