掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1842|回复: 15

[工具] customiseMdxFromList【指定单词列表提取词库】

[复制链接]
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

    发表于 2018-4-6 22:39:26 | 显示全部楼层 |阅读模式
    本帖最后由 Snowdax 于 2018-4-6 23:00 编辑 4 H' ^: U6 x9 }3 I, w  {
    ' E1 \4 h% q" H  Y
    已在 Github 上发布4 `/ G1 G! k# U5 ]
    https://github.com/Snowdax/customiseMdxFromList' H" O2 ?8 }) P1 K2 b
    / Q$ q2 @5 G: a" `. i4 [
    readme 链接复制到论坛已失效,烦请移步 Github 阅读。( N5 ~4 A$ G+ B0 B& _/ @
    4 _! \. E& U  D" f
    欢迎打赏! https://snowdax.github.io/buyMeACupOfSoyMilk/7 d' w+ ~3 G  f. ]! O
    # x$ ~) ?! ]6 f( Y$ |! U
    customiseMdxFromList
    ! S) `9 p1 |3 w' aCOCA5000.txt! L3 [0 l9 }, d& @+ w' i% {
    COCA5000.txt 储存了 https://www.wordfrequency.info/free.asp?s=y 页面上的 COCA5000 词汇表,每个单词一行2 @1 v9 |: ^4 ?; [3 F7 o1 p

    ! ^5 {$ o0 i, B! ]# HCOCA5000_list.py
    : L" I# _+ h' x% vCOCA5000_list.py 将上面的 txt 文件转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量,该 .py 文件可作为模块导入其他 Python 程序。这个文件是由 line2list.py 生成的。9 i6 }- U, ?$ x9 F6 \

    2 l+ w; e. W: v8 w5 S1 L5 m: Cline2list.py
    , c  e. ]# ~# s* l+ F! G5 y输入:文件名.txt
    9 u: c4 h4 R* x9 I% ?, J5 q输出:文件名_list.txt  _8 P6 J+ b5 [7 W
    功能:将每行的内容转换为 Python 中的列表数据格式,并将其赋值给 wordList 变量。/ X" I* t) F* H9 H' m: ~  F

    8 a4 N& |2 Z! x7 Y; W. W/ XcustomiseMdxFromList.py
    8 J8 i6 T  L9 [5 i; f( D: J  d首先将所需词库的 .mdx 文件在 GetDict.exe 中转换为 MDX 源文件,如下图所示:
    1 `( i6 ^  @2 u+ a( r" R$ i2 \- U
    9 z9 e/ ^8 K4 {* G" K9 ?$ E" s0 [
    生成的 .txt 类型的MDX 源文件,应该是一行词头,一行释义,一行 </>,如下图所示:
    2 P7 ^* a9 T( m" V8 i
    6 k) B4 \4 O/ `6 n
    + H8 w/ o* l3 Y3 j接下来,就可以使用 customiseMdxFromList.py 了!4 a# G1 u- C( D$ S+ v! u
    输入:刚刚生成的 .txt 文件(文件名.txt)
    . y' T+ \( @/ d$ y+ b输出:文件名_customised.txt
    4 h: h7 n1 Z$ K  A# H功能,仅保留 COCA5000_list.py 中 wordList 中的单词。如需修改单词列表,请使用 line2list.pt 生成列表并改变 customiseMdxFromList.py 中导入的 COCA5000_list 模块
    / [) B3 x* r& _, U: x0 [5 B" N性能:约 2.5 秒/词,5000 词合共约 3.5 小时
    # z; d+ }; n& r3 u
    / k) A: z# ?1 I; r最后,使用 MdxBuilder.exe 将 文件名_customised.txt 打包为 .mdx 文件,用于 MDict 等词典软件
    , E, B! g, Z& h( N: D; _
    ) K: h: E3 W0 x& [4 v9 i& vcustomiseMdxFromList.exe( _- x- W( ^$ }/ Z
    由 customiseMdxFromList.py 封装。不用搭建 Python 环境,且程序里面集成了 COCA5000 的单词表,直接在 Windows 上就能使用。

    评分

    1

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-6 22:40:48 | 显示全部楼层
    @nidetou
    / e2 E8 m2 U( w/ ^求助,如何把词典中不要的单词删除?2 A0 o4 Q( f4 o' [1 q) `3 h( d
    https://www.pdawiki.com/forum/fo ... &fromuid=176529
    $ _2 H+ w+ N& }7 F$ l# g(出处: 掌上百科)% ?, C/ z/ e  w
    水平有限,程序性能低下,欢迎高手指点!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-7 03:03:48 | 显示全部楼层
    还不明白如何使用,先打赏再说。谢谢!
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:00:05 | 显示全部楼层
    接下来,就可以使用 customiseMdxFromList.py 了!
    5 n3 Z1 g, U9 [, \5 s6 {% K. d' d2 `输入:刚刚生成的 .txt 文件(文件名.txt):" A4 A* `5 O$ J1 i8 P+ n. z
    输出:文件名_customised.txt' _1 C- X, H& v" J5 g

    ) E) Q* A- Y, R, |+ ^) z4 A8 A我是小白,LAAD3我用getdic转换了源文件为LAAD3.txt,接下来点customiseMdxFromList.py出现一个黑框一闪而过。

    点评

    直接双击 .py 文件是会一闪而过的,可以在安装 Python 后自带的 IDLE 中运行(本程序是基于 Python 3 的,需要安装 Python 3 打头的版本)  发表于 2018-4-8 17:30
  • TA的每日心情
    开心
    2018-5-27 05:26
  • 签到天数: 55 天

    [LV.5]常住居民I

    发表于 2018-4-8 15:02:20 | 显示全部楼层
    本帖最后由 nidetou 于 2018-4-8 15:06 编辑 4 Z: {9 w+ b3 M( }8 C6 G  e

    5 i  n) \6 d3 h* s9 Z$ ~% D* Y$ U点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。
  • TA的每日心情
    奋斗
    2022-6-1 19:02
  • 签到天数: 377 天

    [LV.9]以坛为家II

    发表于 2018-4-8 16:38:57 | 显示全部楼层
    本帖最后由 须佐之男 于 2018-4-8 16:48 编辑
    ) w: j- P8 r* j% u
    nidetou 发表于 2018-4-8 15:02& z6 l4 B+ B  n! T
    点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...

    2 c8 @* a+ j7 Q  N( C" u1 }' W( {8 k
    虽然我不懂py,但是看楼主的说明,不需要安装py,是已经封装好的。
    & A( t! m: }9 {5 b2 p; `4 K1 P6 A9 k/ o  U而且这个exe应该是从词典源文件取出特定的COCA5000 的单词表,你需要取其他词才用py程序的

    点评

    我只在 Windwos 10 上测试通过了,其他 Windows 版本还没有测试。  发表于 2018-4-8 17:26
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-4-8 17:28:11 | 显示全部楼层
    nidetou 发表于 2018-4-8 15:02
    " t5 }8 d2 x! V+ v点customiseMdxFromList.exe,说window版本不兼容。我是win7, python2.7也安装了。 ...
    & _* z/ S! Q" g- |6 _3 z- U
    我在 Windows 7 上没有测试。
    # Z% x0 ^  Y% l5 _8 S如果你安装了 Python 3 的话,可以右键 customiseMdxFromList.py 选择在 Python 3 IDLE 中打开 这个 .py 文件,然后弹出的 IDLE 窗口中选择 上方标签的 Run -> Run Module 运行。

    点评

    我的win7 64位的,能打开那个exe文件,应该是能正常工作的  发表于 2018-4-8 17:29
  • TA的每日心情
    奋斗
    2021-4-4 16:28
  • 签到天数: 353 天

    [LV.8]以坛为家I

    发表于 2018-4-9 08:04:23 来自手机 | 显示全部楼层
    应该和source editor 提取词表单词一样的思路

    评分

    1

    查看全部评分

  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 12:08:00 | 显示全部楼层
    神器啊,对于不会编程又想自己制作词典得人太有帮助了!
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 15:23:39 | 显示全部楼层
    Bouroz 发表于 2018-6-17 12:08
    3 W; R/ b6 H9 _, v+ p( y神器啊,对于不会编程又想自己制作词典得人太有帮助了!

    9 A5 @3 V6 ^0 |: L) l; q. {这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。' Q1 g! x* a- W4 N% ?0 y5 y
    可以用 8 楼说的那个程序,那个很快很快。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 15:46:38 | 显示全部楼层
    Snowdax 发表于 2018-6-17 15:23
    ' }7 r$ a+ d" D, D+ @* ]1 o这个版本效率过低了,我有空把下一个版本发一下,速度会非常非常快。' l* m4 c' \+ j1 E# B- f0 |
    可以用 8 楼说的那个程序,那个很快 ...
    5 d, S5 ?4 ^* F% \/ X8 i# p: `
    多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执行操作,您知道是怎么回事吗?
  • TA的每日心情
    奋斗
    2019-10-11 13:52
  • 签到天数: 142 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-17 16:45:56 | 显示全部楼层
    Bouroz 发表于 2018-6-17 15:46
    6 X9 w  {. H. d. W$ ^% _多谢大神!借地求教一下,置顶帖那个Mdict Editor Tool v2.0.35看起来很好,可好多人包括我在内都无法执 ...

    1 m$ ?3 T) f/ a0 K: R9 |% v( p; T这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试验吧,大神谈不上。
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-17 21:24:52 | 显示全部楼层
    Snowdax 发表于 2018-6-17 16:459 B( o5 Z4 I5 z- l
    这个应用没用过,刚刚下载下来用不了。要替换的话自己研究一下怎么写正则表达式比较好,然后多备份,多试 ...

    8 Z" E# d7 G( I% `0 E7 {- o4 k- H- d我现在在组合一个手机上用的词频词典,全靠emeditor的替换和dict source editor合并了,全是体力活,以后有时间得好好学习正则和Python了
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-10 00:08 , Processed in 0.060911 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表