掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 16222|回复: 269

[工具] 【2016.08.11 优化】Mdict词典DIY工具系列之一:词条内容提取利器,极速提取

  [复制链接]

该用户从未签到

发表于 2016-7-10 16:12:09 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-11 20:15 编辑 2 l( P8 L/ M) v# W1 z. }2 ]  h8 p

: T/ g/ k$ ^( d' ZMdict词典DIY工具系列之一:词条内容提取利器,极速提取, n9 l' I, C. w* x3 L2 [  ]
) D9 e% u' G" c7 `0 ?$ j7 R/ i
==============
) v# W1 X3 {6 @7 _0 u3 N2016.08.11 优化:

- |8 ^" U7 R: n# P8 e3 x  b0 L/ I6 }修改了程序,若原文本有多个相同的词条,则不再覆盖,保留对应文本。
$ D, Q1 C7 I/ `$ L+ M4 b3 z* T3 v5 ?2 J
+ z/ I, C6 _5 ^$ J% U/ d/ |改为百度云分享,便于更新。) Q1 \( d9 ^8 y" D: {9 z9 G
1 p6 E9 ]3 k( d7 f: J+ s5 Z
==============
8 ?  N6 z$ F" H  ]5 Q1 O4 H. _0 a7 X7 K9 c
! j7 `- G& o# U

2 @& z0 D# J" k% D5 |5 c$ FMdict词典DIY工具系列:6 a" b3 Y: k& y3 v

: C7 Q# G8 g5 S* a, O/ ~Mdict词典DIY工具系列之一:词条内容提取利器
% g& E' y9 d5 d2 ?Mdict词典DIY工具系列之二:词条合并工具,二合一
# [6 ^7 j1 {4 r9 QMdict词典DIY工具系列之三:MDX文本内容提取解析工具& f- @% v% p9 R( @0 ^* I$ ^$ U
Mdict词典DIY工具系列之四:词条合并工具,N合一% b/ K7 K$ ^5 ~; x
Mdict词典DIY工具系列之五:MDX文本内容 & 词条 去重工具 + G, t+ d0 f; C

$ g8 r  K9 ]1 ^  |
9 A* ^! f: V% Q9 y5 a9 z
8 v9 I) a1 B! {  U; I& j8 ^9 ?
之前的程序报有病毒,已重新打包上传。; R% z" z! j: ]

6 o! W6 C5 X+ Q# `
* r+ R6 E2 F' ~6 ^9 Q7 h8 l4 Z( h" g, k- W1 V/ O
2 E# S9 e% T5 q' b- i! a+ V  |* j. Z
Extractor from MDX by Wordlist v 2.0:( A+ w, w) L. H! Y
, ]% B# O9 q: `( D9 B

$ C- j# A+ P; J' m
0 }- |4 s( }& v7 k7 x# Z        使用方法:$ {- t9 p- N3 A, x8 m
. d  b9 `2 P9 K4 b% H/ h' F, C8 D8 r: N
       
2 [; V% ]. ^& H+ p# ~5 J( }        提取词典内容的源码文件应为Mdict词典格式的文本(.txt)文件。3 p9 x" x6 i% k7 o/ l5 W, Q

) L: _. a3 e2 W: Y5 o) b( ^        该程序无图形化界面,为方便使用,请把文本文件名改为阿拉伯数字或字母,方便文件名输入。
9 F3 P9 {' n1 M' k) m, ]6 i" S
0 i. j! M5 {1 d- r" q2 J7 m. ^        Input wordlist file name:  输入单词列表名,无需添加 .txt后缀;; @5 \$ d1 S0 x( @
        Input source file name: 输入MDX格式的源码文件名,无需添加 .txt后缀;
& t; W9 z5 h5 ~+ e1 F  z6 ?        1 FOR include, 0 FOR exclude:  选择1 include 模式,选择0 exclude 模式。
& W/ ?9 e+ Z8 o% a7 l, I# T6 q# r+ S2 g
                                模式1: 提取包括该单词列表的内容* h; E: Q  N7 V6 T9 O! s1 [
                                模式2: 提取非包括该单词列表的内容& V. C/ e. A1 U* b( y% E+ U
& A& v, r0 q/ f4 ?: K
===============================% X! X% w# G2 O5 F
) @9 {3 Y" |2 v5 F

( v' r; A3 ?) ]* u5 s0 m! J链接:http://pan.baidu.com/s/1bpbYkwB 密码:55po/ W4 k" ?- }; }/ Q4 f

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 工具|主题: 8, 订阅: 5
  • TA的每日心情
    奋斗
    2022-11-19 13:01
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2016-11-28 12:14:05 | 显示全部楼层
    谢谢楼主分享,下载看下

    该用户从未签到

     楼主| 发表于 2016-7-12 11:02:38 来自手机 | 显示全部楼层
    Snowdax 发表于 2016-7-12 08:58
    " {9 J, U$ P+ ]3 x: E7 e( [/ ~. h其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的

    & I1 {& c) t  g0 N* @/ g应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不会    我的脚本思路也有问题
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 12:45:20 | 显示全部楼层
    qiuhao1112 发表于 2016-7-12 11:023 ^" z  I$ f0 W- n! w  g( r& O5 F$ G
    应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不 ...

    ' x- g. H1 g  u! t因为我之前做词典用过这个功能,所有隐约有一些印象. y5 c% L  A" F) X
    python代码比较简洁,但运行速度确实不快
    ! K) G1 |" b# k5 D4 h(其实我也是门外汉的

    该用户从未签到

     楼主| 发表于 2016-7-10 16:26:03 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-8-7 15:09 编辑
    , f( r/ g0 _% d% m
    % ^  R: x+ f1 N0 I! X: j打开大文件无压力。。

    该用户从未签到

    发表于 2016-7-10 16:33:17 | 显示全部楼层
    巨巨请教一下,读取mdx用的什么python库啊?
    ' C4 N- o, z; L1 e& m还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    该用户从未签到

    发表于 2016-7-10 16:51:40 | 显示全部楼层
    路过帮顶辛苦了

    该用户从未签到

    发表于 2016-7-10 18:51:50 | 显示全部楼层
    这不是很多人需要的工具吗?!

    该用户从未签到

    发表于 2016-7-10 21:47:30 来自手机 | 显示全部楼层
    真是雪中送炭呀
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-10 22:53:15 | 显示全部楼层
    咦 我记得Source Editor有类似功能
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 08:01:41 来自手机 | 显示全部楼层
    太好了!可以自己折腾词库啦!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 08:43:48 来自手机 | 显示全部楼层
    楼主,我是linux用户。求原始Python脚本

    该用户从未签到

     楼主| 发表于 2016-7-11 08:49:00 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-7-11 16:44 编辑
    - m% z0 S5 F$ q4 y: M' t
    lmjiao 发表于 2016-7-11 08:43
    $ R- s8 `5 |3 ]8 J8 A2 a楼主,我是linux用户。求原始Python脚本
    7 t  ~4 M5 t4 I$ F/ t; v4 E
    - W8 f3 e  e5 _7 `+ x
    脚本还需要修复

    点评

    感觉可以用的dict先存一下数据,然后再提取。还有Python的thread在gil的条件下是针对IO阻塞的情况用的,这里好像没有必要。。。  发表于 2016-7-11 14:45
  • TA的每日心情
    无聊
    2020-11-6 22:08
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2016-7-11 10:08:34 | 显示全部楼层
    perfect exe~

    该用户从未签到

    发表于 2016-7-11 12:49:56 | 显示全部楼层
    fnaviwwo1 发表于 2016-7-10 16:330 Z+ k  q# j6 z
    巨巨请教一下,读取mdx用的什么python库啊?
      E" m& u- Y% T8 o! h还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    0 o* \. Q0 n& |& J+ i9 V) m如何用 readmdict.py 提取 mdx/mdd 中的数据
    1 W  }9 K1 Z( f  G& z/ b, G; {http://jingyan.baidu.com/article/95c9d20d47583bec4e756132.html

    点评

    I really appreciate it!  发表于 2016-7-11 14:22
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 16:22:53 | 显示全部楼层
    谢谢楼主无私分享; @- D& H  m7 G0 G7 R( D2 d# I
    开心!

    该用户从未签到

     楼主| 发表于 2016-7-11 17:05:01 | 显示全部楼层
    Snowdax 发表于 2016-7-10 22:53
    & k! o' {% J% ?, L* u3 P$ b+ f2 H咦 我记得Source Editor有类似功能

    - ~: L. o9 T* x9 N. Y5 xSource Editor  确实没有这个功能
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:07:34 来自手机 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 08:49
    6 s+ k, A& f" k3 k# h1 e2 x脚本还需要修复
    , V3 i+ g1 y# E0 J, P8 E
    非常感谢!热切期待!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:09:29 来自手机 | 显示全部楼层
    vbnet 发表于 2016-7-11 12:497 k0 l  `2 {) @
    如何用 readmdict.py 提取 mdx/mdd 中的数据
    / \1 y& N+ O4 n# Ohttp://jingyan.baidu.com/article/95c9d20d47583bec4e7561 ...
    0 A" M' L7 g, B- }% m0 [0 U
    楼主的可以根据单词表提取所需内容。你给的链接中只能提取全部内容。
    & Z( Q9 n* k. }) f% V4 b7 Y+ L9 X/ \# q' H% H1 [
    对于部分人来说,楼主的按需提取功能还是很方便的。

    点评

    vb大所提供的链接只是在回应fnaviwwo1在3楼所提问的问题,并非要跟LZ的功能做比较  发表于 2016-7-12 10:07
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:50:36 | 显示全部楼层
    windows 10 不能用
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 08:58:15 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 17:05
    ) O$ T# [& B! r4 `" @7 n. h4 x# M( |Source Editor  确实没有这个功能

    ) @1 ?; H* A2 }2 V: t1 Y0 Z其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的
    # V$ v" a1 m5 @: E- }* ]% `4 o

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:21:44 | 显示全部楼层
    请问楼主没操作指南之类的,对我这样的傻鸟的挑战可不是一般小啊( S" e: c" M. |
    谢谢
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:24:43 | 显示全部楼层
    按Readme去操作了,但好像没得到什么东东。
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 11:29:20 | 显示全部楼层
    menglongma 发表于 2016-7-11 18:50$ b" I1 c8 g7 U' X2 |) D( a
    windows 10 不能用
    . V6 a( G% x5 e5 c0 c+ h9 s7 j) [) @
    这就难怪了
    & R3 |9 P: v" ?. S2 C0 F谢谢分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 21:24 , Processed in 0.071693 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表