掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1907|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 8 S" X9 a, w+ F; d. D
    2 I- u2 O6 A" o2 ?7 n0 A! }
    已在 Github 上发布
    + q: N( h5 D+ jhttps://github.com/Snowdax/customiseMdxFromList2 \' W6 t4 }: F* _5 f( t- G2 H( X

    - Q4 q/ l% n) r  [& ]+ B7 N$ @$ p7 @5 wreadme 链接复制到论坛已失效,烦请移步 Github 阅读。1 s% Z2 X, {+ h1 r- @, ^* }( r- ?

    / D8 {7 S/ \% _# V) p/ ?欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/
    6 B- m# Q7 j. D7 t8 ^$ v8 z7 _/ q( j+ e$ J( Z, p: J* P; t
    customiseMdxFromList4 J+ a" y' O* ^4 {9 u: |6 d2 V& x
    COCA5000.txt  Z4 `8 V  M9 }  D1 w" K
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行
    & A0 l4 x8 a/ L; @2 d4 N4 ^+ I2 R
    $ p2 i* T- I- YCOCA5000_list.py
    & [! k  M! k$ N7 X4 ?; YCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。( Q' s# e$ ?2 W
    5 B4 R* X. D9 n  T; a
    line2list.py6 _8 B# u: y: s& N
    输入:文件名.txt
    8 P5 t" g+ J# o( V输出:文件名_list.txt: e0 c" Q2 {) T& B- J! g+ j
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。
    - Q  ~/ g) w4 B" ~
    ) ?- Q! t) ~% qcustomiseMdxFromList.py
    * C! s4 w$ ?/ m3 G( K首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:9 r' A& ~3 H7 a- `; T8 r5 l% A  w

    , i: D7 U% D* W2 ~6 e( s1 ~: E0 s" H6 K; }7 c* P6 p! p
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:' ^% d3 I# g4 F* X+ @) P

    6 Q, _2 h4 {+ f, n1 ]
    - S3 A" v" q% w( B接下来,就可以使用 customiseMdxFromList.py 了!, S+ p6 v7 g. z# [# A( K
    输入:刚刚生成的 .txt 文件(文件名.txt)
    0 ]) p; S& X$ G% h  D9 c+ a输出:文件名_customised.txt
    5 e" U7 J4 c- `3 T功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    % T: R- y3 i) b/ n9 `  b性能:约 2.5 秒/词,5000 词合共约 3.5 小时+ u. |* `- T8 n! i( X% R1 s2 ]

    ' C3 n% W+ @! u最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件) I3 t* v( H# m' d

    / I" p5 l% X3 p2 ocustomiseMdxFromList.exe
    $ e3 W% u6 P& e7 E9 f* U7 R由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    2 K* a# H( [6 d2 l; C" H求助,如何把词典中不要的单词删除?
    " J$ i7 r4 e$ _. nhttps://www.pdawiki.com/forum/fo ... &fromuid=176529, @9 R; `8 W/ r' r: ~: M
    (出处: 掌上百科)+ k- ~/ a* b. X2 U$ O
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    0 I. l% n# f/ l& E# G$ O输入:刚刚生成的 .txt 文件(文件名.txt):
    6 ?5 A" S  _7 H7 a2 d输出:文件名_customised.txt
    5 b% V7 I' B/ R6 l7 g6 n5 A* Z  X8 ^
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 3 [" S: x/ J: D
    4 C6 E4 c2 [7 U3 l
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑   ?- ?& L) q+ p
    nidetou 发表于 2018-4-8 15:02. @% G# o: Z, d6 h, z
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    # c* p9 p7 P* ~3 g

    4 s# l( q1 ]! `* N虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    * w+ ?2 o2 s7 p# R" q而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:020 \! T$ f1 a* ^6 }
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    % v# _5 _9 C2 P. H( x
    我在 Windows 7 上没有测试。
    - D# q1 b8 I5 j. ?$ A& ?如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08' d' l" a' m6 v- o
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    : f( u- L/ a  U/ E这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。' t; T# N2 o5 R
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    , _4 H4 f4 g; ?6 ]. c( }0 n这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。1 K: q1 B  d+ x2 u! z, v
    可以用 8 楼说的那个程序,那个很快 ...

    ' w$ i% F6 h5 a* I0 f多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46* v( M9 l" f. Z# K, Y
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    9 N* ~8 R6 A4 E  p这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:453 d3 I0 \0 o# O4 X1 p6 K& r
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    : O! {/ W5 K; y- M. D7 l我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-31 13:58 , Processed in 0.054981 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表