掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1840|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 8 }; Q5 i: W  Q3 I: N) r  @( n/ t

    $ F- A# U1 n" _8 Q已在 Github 上发布
    1 f- x0 S( o- J  s4 v: L: |https://github.com/Snowdax/customiseMdxFromList
    1 B* J& i& ]7 f# K8 N
    / K  a. e$ l; u; n- W5 f8 Areadme 链接复制到论坛已失效,烦请移步 Github 阅读。4 O3 B4 R4 g. l6 G

      Z( T7 M% b3 V  O) n5 n3 Q欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/' k7 @4 j, c- M
    * R0 M* f8 `$ P! l- |) M! i
    customiseMdxFromList) A4 R" Y3 V) _$ h- ^! T5 a6 E
    COCA5000.txt, a- J6 U- {6 ]: v1 a
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行+ r8 V. Z. G  B1 ~

    : i2 J6 Y  N8 h0 {. _( _COCA5000_list.py
    " l& ^0 {% k' h; i4 gCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。) X2 f$ O9 ~  b4 T/ r' a- e6 J

    % B2 O" _3 M1 o5 u. Z2 l: x1 X; _line2list.py5 p! M( D% J% _( ~* L/ R
    输入:文件名.txt
    # c( o- a0 j% ^) t输出:文件名_list.txt# h0 H0 j, x% E% o8 z
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。; V9 y& L3 x8 ~& G$ t( h
    5 t1 k# X1 s$ _( _3 C
    customiseMdxFromList.py) y' ]7 p! G3 g2 H+ Z3 ^: C
    首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    ) H0 B! j) c( N; r6 U
    , m6 _& `( d7 S# B6 i! L& ?$ v: Z; Q  R) e% J2 N
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    5 q, D( J4 i! C" p1 D: \
    1 u4 L- p0 X) n' ]% W, l2 a/ w) v( C7 b
    接下来,就可以使用 customiseMdxFromList.py 了!
      I! W! t: v- N( L2 {$ d0 ^输入:刚刚生成的 .txt 文件(文件名.txt)
    6 i1 L$ @% q9 H输出:文件名_customised.txt
    ! G+ i  G1 L9 c: V0 F$ a功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块  w+ C% Z- E% E0 F  G7 B, V
    性能:约 2.5 秒/词,5000 词合共约 3.5 小时. Q0 P# |5 I8 a# \+ S) @5 s

    4 p4 f8 ], G: U' s0 G2 j最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件
    ) _+ j8 R7 C$ [3 f& [$ o
      |; M6 s# @1 I" v8 [& `# @6 AcustomiseMdxFromList.exe
    ) V/ k5 _  S& [5 _5 w由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    - r/ p1 w0 o7 X7 z求助,如何把词典中不要的单词删除?4 n+ ?0 y1 D- f
    https://www.pdawiki.com/forum/fo ... &fromuid=176529
    . I4 A4 w% L# l: Z) K(出处: 掌上百科)  Q' Y! E+ n% B9 Z- Y! p
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    0 l* Q9 t  m9 u& h; E/ U* C) z输入:刚刚生成的 .txt 文件(文件名.txt):
    5 B; ^7 `3 @% U) m" a8 F输出:文件名_customised.txt
    * z/ e) ]: q1 p$ H/ r$ x9 L( P4 z4 S  F8 l$ t$ O4 h, e
    我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 - u3 V" E$ t# h3 U. M6 t) Y0 C

    : r6 s+ |2 _9 B; p4 Q点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑 : r  y0 h$ d; U8 {
    nidetou 发表于 2018-4-8 15:02
    2 O+ m) E: Y- A# V点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    # }! U9 z- j; ^

    % s9 U& L6 Y4 V5 h2 M# Q虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    3 z' h* i8 D$ E1 h2 N而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
    3 N/ _& o2 S& g$ i6 B) L点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    7 r" [7 i! W2 B# |  Q$ p2 ?我在 Windows 7 上没有测试。0 C2 W1 `/ G1 y+ I$ m
    如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:088 D, S8 T: O1 L" p
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    ' q9 L7 h) I) t2 o4 l这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    1 s% c) V; d' Q$ ~! u& _0 O- m可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:233 b! ~. G; I3 p, @( y
    这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。
    0 b2 U6 n# o6 S: k4 W可以用 8 楼说的那个程序,那个很快 ...

    : ^5 v" o" P* T- e多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46* f1 e7 U# L8 O' \
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    3 k: b. R7 r  S. ~0 ?) p. f4 T这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:45% D# u  {( r6 E; ~. }
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...
    0 S! }/ f7 M9 Y/ Y) k# |
    我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 17:33 , Processed in 0.073488 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表