掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 15965|回复: 269

[工具] 【2016.08.11 优化】Mdict词典DIY工具系列之一:词条内容提取利器,极速提取

  [复制链接]

该用户从未签到

发表于 2016-7-10 16:12:09 | 显示全部楼层 |阅读模式
本帖最后由 qiuhao1112 于 2016-8-11 20:15 编辑 " [) I) p0 U0 \' o- M  C2 b  R
" ]$ o: z. g1 X( P" g
Mdict词典DIY工具系列之一:词条内容提取利器,极速提取& b# r0 y# t/ m- ?, W
! Y0 D  \5 E( B' x, C" p& }
==============
; B$ x& c, P0 \( I) L2016.08.11 优化:

/ F, X, d( s8 J, E* }- i修改了程序,若原文本有多个相同的词条,则不再覆盖,保留对应文本。
& T5 }4 k4 p/ U. b% c
# I: x( t+ M4 k7 v) w改为百度云分享,便于更新。7 {8 I7 N, y- L7 y6 |. D' {* T

/ J, e, g$ {8 h* \, o& X==============
) p) d% p; H: W+ W' m/ w, e/ b! c
9 S: e# L* L# x7 l) V8 J. ~( E8 |0 k3 P7 w1 B$ n

+ G& f! `; l$ i! P5 BMdict词典DIY工具系列:
7 ^- `+ h, W6 l- L: q4 Y" p: K( |9 |9 w" K4 E' R
Mdict词典DIY工具系列之一:词条内容提取利器
# I5 b- e5 i# Y; _: j% h/ M9 W, Y7 zMdict词典DIY工具系列之二:词条合并工具,二合一
0 [! K2 j- V& p" ]6 q9 r* sMdict词典DIY工具系列之三:MDX文本内容提取解析工具/ y' g* j6 w$ n1 c
Mdict词典DIY工具系列之四:词条合并工具,N合一$ l3 P3 J/ ]( o7 f  k# @
Mdict词典DIY工具系列之五:MDX文本内容 & 词条 去重工具
2 D; m: A& }0 a6 T( w; p7 O' D; {9 X$ F, Z. T- F1 d

( r: [% q8 A, v5 [, i' u( E# k0 U
之前的程序报有病毒,已重新打包上传。
" P1 f, q8 ~4 ^7 X7 i  ~/ S' l, J( }

; s6 _$ T( U% U# g; D0 i' ~
2 x9 n/ l! Q! G! t+ E, U3 G. N) I2 g* L7 I: W
Extractor from MDX by Wordlist v 2.0:$ C4 F, R0 H9 C2 h, W( K# y1 x

  a# E0 |" o0 C% P% |2 c+ s
9 Q- I0 V( C; ~. \. K0 q  J( u. S+ E* r7 A1 v$ _
        使用方法:
4 v  W7 c. ]7 `
7 e! }- S9 W# j4 Q0 J! P! C       
# u9 A1 n& _& V        提取词典内容的源码文件应为Mdict词典格式的文本(.txt)文件。5 S/ o- t& Z+ t9 z5 z# ^4 b( X9 m1 G4 k
. X4 e6 d! ?4 D) @
        该程序无图形化界面,为方便使用,请把文本文件名改为阿拉伯数字或字母,方便文件名输入。
4 b1 _8 O0 M) p# X$ S3 Y: K# n/ x4 n) f! g7 p# D) O% [
        Input wordlist file name:  输入单词列表名,无需添加 .txt后缀;; H1 t! m/ G' E
        Input source file name: 输入MDX格式的源码文件名,无需添加 .txt后缀;( a9 p5 t, ]' j: F- ~
        1 FOR include, 0 FOR exclude:  选择1 include 模式,选择0 exclude 模式。5 K4 V5 `# }: N/ K  l) t
$ x2 V& h) J/ U' i# p- a% z
                                模式1: 提取包括该单词列表的内容
, t6 ~8 s& ^! c" h* T1 G3 I: I* c2 j                                模式2: 提取非包括该单词列表的内容
5 y, l$ \* c: s3 I- T2 \( u2 [& M% t2 j$ e
===============================
$ M9 F& r/ ]& ^: L9 j
) o, ?, g8 A( D1 V! E, |. c1 s& c) n9 D+ j0 t  d( P
链接:http://pan.baidu.com/s/1bpbYkwB 密码:55po
1 j: u4 c3 q2 D/ Q+ Z' ?

评分

1

查看全部评分

本帖被以下淘专辑推荐:

  • · 工具|主题: 8, 订阅: 5
  • TA的每日心情
    奋斗
    2022-11-19 13:01
  • 签到天数: 21 天

    [LV.4]偶尔看看III

    发表于 2016-11-28 12:14:05 | 显示全部楼层
    谢谢楼主分享,下载看下

    该用户从未签到

     楼主| 发表于 2016-7-12 11:02:38 来自手机 | 显示全部楼层
    Snowdax 发表于 2016-7-12 08:58. y$ |/ y  [- Y
    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的

    3 Y7 a2 [5 c  d& D# r/ s) H应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不会    我的脚本思路也有问题
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 12:45:20 | 显示全部楼层
    qiuhao1112 发表于 2016-7-12 11:02
    " x7 p) l& L; O) V5 Y3 @% z应该是我以前没发现这个功能吧   而且sunsmile大的那个速度很快  应该是用Java或者C写的  这两个我都我不 ...
    ) k7 S! ~6 l+ [- }* l
    因为我之前做词典用过这个功能,所有隐约有一些印象! Z  M0 {  W; R! ~$ T: b
    python代码比较简洁,但运行速度确实不快
    ! L- z( c7 B9 a" {; X(其实我也是门外汉的

    该用户从未签到

     楼主| 发表于 2016-7-10 16:26:03 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-8-7 15:09 编辑
    # ?5 d8 G5 d8 v( `' k* u* Z# v
    ' |. G/ x& x- j  J  k: m打开大文件无压力。。

    该用户从未签到

    发表于 2016-7-10 16:33:17 | 显示全部楼层
    巨巨请教一下,读取mdx用的什么python库啊?8 H' ^, R( g! d
    还有写mdx只有MDX Builder,有没有支持命令行的工具啊?

    该用户从未签到

    发表于 2016-7-10 16:51:40 | 显示全部楼层
    路过帮顶辛苦了

    该用户从未签到

    发表于 2016-7-10 18:51:50 | 显示全部楼层
    这不是很多人需要的工具吗?!

    该用户从未签到

    发表于 2016-7-10 21:47:30 来自手机 | 显示全部楼层
    真是雪中送炭呀
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-10 22:53:15 | 显示全部楼层
    咦 我记得Source Editor有类似功能
  • TA的每日心情
    开心
    2018-1-27 00:16
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 08:01:41 来自手机 | 显示全部楼层
    太好了!可以自己折腾词库啦!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 08:43:48 来自手机 | 显示全部楼层
    楼主,我是linux用户。求原始Python脚本

    该用户从未签到

     楼主| 发表于 2016-7-11 08:49:00 | 显示全部楼层
    本帖最后由 qiuhao1112 于 2016-7-11 16:44 编辑 & a5 ^$ v: I, @) R
    lmjiao 发表于 2016-7-11 08:43
    " h- l% d0 U  Z+ w) e! e/ i' y楼主,我是linux用户。求原始Python脚本
    3 _+ v* c' Q$ H4 S! t0 }' k2 g0 V

    7 r  s3 J. j/ y( g  \  q/ }2 T脚本还需要修复

    点评

    感觉可以用的dict先存一下数据,然后再提取。还有Python的thread在gil的条件下是针对IO阻塞的情况用的,这里好像没有必要。。。  发表于 2016-7-11 14:45
  • TA的每日心情
    无聊
    2020-11-6 22:08
  • 签到天数: 26 天

    [LV.4]偶尔看看III

    发表于 2016-7-11 10:08:34 | 显示全部楼层
    perfect exe~

    该用户从未签到

    发表于 2016-7-11 12:49:56 | 显示全部楼层
    fnaviwwo1 发表于 2016-7-10 16:33/ \' }8 ]. n& A+ \4 w7 X
    巨巨请教一下,读取mdx用的什么python库啊?1 J8 Q, [0 U* S
    还有写mdx只有MDX Builder,有没有支持命令行的工具啊?
    * j* b- K% [7 V2 F9 t
    如何用 readmdict.py 提取 mdx/mdd 中的数据
    & T: }5 i5 C4 I; fhttp://jingyan.baidu.com/article/95c9d20d47583bec4e756132.html

    点评

    I really appreciate it!  发表于 2016-7-11 14:22
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-11 16:22:53 | 显示全部楼层
    谢谢楼主无私分享7 m$ Q# t% L& v1 L! T
    开心!

    该用户从未签到

     楼主| 发表于 2016-7-11 17:05:01 | 显示全部楼层
    Snowdax 发表于 2016-7-10 22:53
    ( p" w* |9 p( E* Y, u2 F咦 我记得Source Editor有类似功能
    ; j+ ?  P# P3 e: p9 Q9 c
    Source Editor  确实没有这个功能
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:07:34 来自手机 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 08:49
    8 S# J, F) R, e' w7 M6 p脚本还需要修复
      B( Q- H" t, ?
    非常感谢!热切期待!
  • TA的每日心情

    2019-2-16 21:57
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:09:29 来自手机 | 显示全部楼层
    vbnet 发表于 2016-7-11 12:49% a/ `6 t) A9 z7 Q
    如何用 readmdict.py 提取 mdx/mdd 中的数据
    0 f% Q1 ^0 j4 T% k+ E1 X7 H+ S4 shttp://jingyan.baidu.com/article/95c9d20d47583bec4e7561 ...

    5 Z3 g0 L; I$ e+ [& Q. c2 K( X# g楼主的可以根据单词表提取所需内容。你给的链接中只能提取全部内容。( A1 K! u& U# p. m' x: {/ Q1 f% ]
    7 K5 c5 Q( i6 i# P- B  \5 [
    对于部分人来说,楼主的按需提取功能还是很方便的。

    点评

    vb大所提供的链接只是在回应fnaviwwo1在3楼所提问的问题,并非要跟LZ的功能做比较  发表于 2016-7-12 10:07
  • TA的每日心情
    开心
    2019-6-27 08:03
  • 签到天数: 8 天

    [LV.3]偶尔看看II

    发表于 2016-7-11 18:50:36 | 显示全部楼层
    windows 10 不能用
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2016-7-12 08:58:15 | 显示全部楼层
    qiuhao1112 发表于 2016-7-11 17:05% V* O! k  n7 o: D
    Source Editor  确实没有这个功能
    6 B* I# W3 u7 p, @* H$ H: ~0 U  z
    其实是可以的,用custom 添加reference list即可,但该软件好像没有开源,不知道是怎么实现的
    7 b3 W2 m. E, Q) m6 v# J

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:21:44 | 显示全部楼层
    请问楼主没操作指南之类的,对我这样的傻鸟的挑战可不是一般小啊, t( [3 p) n% ?3 Z% i% e
    谢谢
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 10:24:43 | 显示全部楼层
    按Readme去操作了,但好像没得到什么东东。
  • TA的每日心情
    开心
    2018-4-7 21:39
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2016-7-12 11:29:20 | 显示全部楼层
    menglongma 发表于 2016-7-11 18:50, j, J) Q3 W. ^/ I% x6 q1 n
    windows 10 不能用

    2 @. i. j' [+ G, j7 @这就难怪了# V8 @- |7 T! @2 k
    谢谢分享
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-27 16:30 , Processed in 0.112647 second(s), 13 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表