掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2468|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑 * P, d- V3 b5 H5 t

    9 W* V8 ~5 c% N3 Z$ q
    . E5 f7 T4 c" l: d) N5 x额...希望ff大 不要怪我。每一次都是用你的词典来举例子。! G( T. C7 @, C) L: B
    没有办法谁让你的词典那么具有代表性呢 " m2 y. G, P0 X& V" [4 t& b4 X# @! ~
    6 H% g% m( d5 x# p% A1 B
    大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。
    9 r4 N; }8 J2 }# c& B4 G# X2 l+ t0 v' L8 v4 p0 ?
    1.这个按照软件作者来说,是可以无限的合成词典
    * S* _+ r+ N* d  H, S2 h# W2.这个方法适合大量的词典
    " r/ g# _# n9 A3.这个方法是mdx解压得到txt,对txt的合并4 q6 i9 D& a2 ?3 {# B  j. s+ I
    4.存在问题! w+ G- t9 r0 @
        1.适合小型的词典, B4 d, p* Q4 v  @
        2.没有复杂的css1 q- w/ M* A2 X- n, Y% N* X3 f
        3.没有或者很少的js
      `4 C' e6 b: [: `: C  x& p- l    4.没有跳转
    6 Q: p  ]1 K9 q+ U% b7 y' b* S    5.没有大量的图片6 H: C+ M* |4 |% o
        6.没有语音的, }- W# O* C& v5 a" p4 H" b( x
    ) Q. D1 f0 d3 N% Z& G
    ( @& M2 B/ X/ a' F. U1 P
    ' m6 T3 K; n$ g% }0 ?
    一 需要软件
    2 o$ L! t8 f3 f1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    4 j6 o& J4 ^$ U$ B6 G7 Fhttps://www.pdawiki.com/forum/thread-17709-1-1.html
    ( K0 y/ C/ J9 y' {( h2 Y: q2.[MDXBuilder] MdxBuilder 3.0 Beta2, l9 _% Z* b: g. `8 [
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747% Y8 o  k# X* ~; I# d
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具% p& ^1 |1 r8 Z; O
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747; f: _2 r$ x- B, i
    4 O' R0 K& ]8 w
    第一步
    + {5 F, Q" h" r; R) d" E使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式
    ; {$ s& ~* n) R2 A1 L2 f4 x& @: o
    ( h8 m6 c9 q/ _7 y$ w( R1 ]% k同理,对lang5++转换,得到2 _+ G7 i' x; T* S* h

    4 q: C; d, }5 N! v* [
    2 E6 g4 o, R  M$ y第二步* V$ f- T3 }# X, d7 c. E2 ?  d: v5 B
    我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    3 P: R- A5 P0 T' c6 {7 phttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=37475 M2 b0 [! D+ y! _7 b

    6 M7 J* m& ^  m; B1 t4 O8 t注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制( r* V9 _8 N# f# K. t* Q" g
    但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    0 A6 D, s9 F  e+ x8 E5 q1 X/ [& O
    & r7 H5 g) o  I( D
    " ~- k" W& I/ |# ]8 u, Z$ B3 a# ]# B7 L/ ^& Q2 j4 \
    得到这个
    & o3 t/ V+ ?+ j& L; f4 v# Y, A6 u" u& W& P: J  L

    ) L6 E) t9 w: @4 }不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹: o& \( l- ]/ `7 {/ N, N& M

    % a, I" o, r1 X6 j& {3 T, f
    7 q* P9 B9 C$ P, f0 u( W( f  Z让我们来看看效果图
    % n$ w0 Q+ K% c* Q4 q1.部分排版出现错误,js跳转没有问题,' w1 A, W2 Y5 K7 }& C7 V6 y
    2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
    ' _: k. \0 P, e3.css可以修改
    7 w$ e5 S/ ?/ X. z. w# y* M

    ; F: @% x3 T9 ?" l. w
    1 }# s) h, M; B6 z0 ~: D( P" o( c9 x0 ?4 Z4 ]
    由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转+ q' I! ?) o& U- P) `  ?; z5 O$ q
    由于会出现加载问题,本词典必须放在第一位
    & ?- b3 k: i8 M; I5 a% V( U  `
    2 T" S% r& _. d( D
    那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开, O2 v& x6 k) X( \- o2 ?

    0 T9 _9 _7 x* F1 d& Z& P" X) R% T这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典
    + U: s9 v* f4 G$ _  O" O0 w, V; t% D3 M
    需要的工具# L* F: q' L2 F8 s* j' k
    & X1 v7 ~: i0 ]- K# [
    1..emeditor64 百度8 o- o% Q4 \+ j) ]4 L
    2.MDict
    : {- I) u& S% e( A1 C. l% [- whttp://www.mdict.cn/wp/?lang=zh
    " c( b1 z% `+ z, t  _2 T. Y3.Google浏览器( D: `7 E2 ~, L) S

    " O# S7 a9 j  m, i) a2 ^我们来通过牛津搭配和牛津同义词字典来看看# Y$ V& c  m: n) J- \
    我们还是老方法得到两个合并在一起的txt,实现替换# N  Z1 [) ?5 x7 F( y
    7 Q7 ^" U7 x: l2 k% U# z/ b
    3 G0 Y; H& J/ d% @0 d. D' Z6 D
    得到mdx2 ]5 O$ G& u2 M8 x6 {& q; A

    8 A1 s$ v! W9 t3 `& V我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    5 z, t1 y7 [  ?3 M' ^- W% z1.使用mdict,打开我们得到的 测试文件牛津动词.mdx  a  f8 _' w, X- i
    2.提取源7 }1 Q' O3 A5 a7 w. L2 v
    3.使用Google打开  go.html# H+ w0 b1 v9 q
    4.使用MdxExport.exe打开mdd得到之前他们两个的css
    " I" l" [+ j4 E( H/ ~( M" W0 r* M9 B6 I+ X7 M
    我们查看测试文件牛津动词.mdx 排版一片混乱
    9 _6 u9 f0 P8 q0 |# L
    - c, V4 r1 i, }4 ?; ?! Z; [2 p7 a, Q3 E9 m7 N8 R5 K: l
    我们使用这个新的css导入看看是什么样4 L5 \& P  l+ f7 R; X* [

    , X& ]; B( Y! U' o$ g( L7 L2 B! w( ~2 ]# B' G1 o
    我们导入之前原有的css
    % E- @" l4 d5 I; [' g. b+ J( ~+ ]7 }) Y% u% E. _  |

    . U: Y2 j3 e! s/ {修改新的css来删除标题字样7 \' `" W8 k' h+ _, |7 i
    ; T/ \# T9 c+ g5 ?) j1 a) O

    , {& d) j8 G- T4 |( u2 n- {' a
    ; y" o1 m( X9 H, _4 j% h我们开始合并,使用MdxBuilder/ P( _' L& p" D0 |. P+ n

    $ D% n( r8 \/ K7 E' V
    , [+ Y6 f* n6 D+ J我们看看效果图
    $ H4 [/ s" S5 O+ h0 R; b7 z2 B6 R2 K* g6 e7 h1 Z. H3 V( Q( Z
    ; G: K( V9 n9 k2 ?
    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~" y3 m0 z9 p' d5 Z* G) r

    . B3 u1 ?6 F6 I/ `, ]5 J3 g( d

    4 E8 d0 c& X; G' p) l

    1 C8 d" L$ |$ t7 |* T; b: g

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……
    * O! e  s& \1 y# n5 J% X- r8 i* P0 \我粗略的看了一下* u) U/ E; J8 N) k! B
    似乎是比较简单粗暴的合并方式?0 G1 m! S3 n* W) x7 N. d
    我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57, B' a8 `, Z8 k7 }
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...

    ' B% m+ L0 S. K' Z, v....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:557 Z" g7 p! \' p% E2 w" x+ u7 |7 b
    ....额 请问为什么要清空 out 文件呢?
    9 ]6 U1 O: q7 z+ p
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02! A- s( Q/ k+ \% C
    那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    . Z6 i( a% {0 B* ^% Y这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04
    ; w- j. ]* `6 L3 L这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    3 e# Y# P* ]2 L8 l' W我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13
    7 |8 X0 L/ f5 e+ |6 u* K我的也是,win7都不行,我有时间再试试看吧
    ' ^" L2 m, N; w6 j, p4 B. D; v+ k
    嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23
    4 @) J! A4 B, l嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...

    & O, [4 S: X% z7 y0 C( l9 U5 @那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26
    9 |2 _, ~+ w% p' [* s3 J那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...
    2 v# b# Z$ S; E4 m, |
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38/ I5 F( A& B  O3 V' }, Q; Z
    先码再看……  ~6 N- J9 f: g% l4 Q: X
    我粗略的看了一下
    ; ]: J6 V/ f, }6 {似乎是比较简单粗暴的合并方式?

    2 n8 v1 I+ {1 u- r' o提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑 - ]4 y7 ?4 z) g
    Bouroz 发表于 2018-6-16 18:24
    , W; g6 J3 X6 `$ p! k提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    # K( G2 I+ M4 w  N& e1 @% @4 O

    * ]2 |* }3 p7 U' x& k我也没系统化学过编程……! _9 ]" N! v2 b9 x- n  `9 ]2 l
    先用论坛给的解压工具把mdx解开
    ( [$ v/ {  ~" H& N$ b使用EmEditor找到一个最具特征的单词(entry)
    : _4 ?7 e7 ]# a( S提取出单词对应的那部分# w1 Y% @$ [/ r5 I: d% {' K5 ?
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    % m& N4 m/ j9 x* Z只不过有时候为了单词的不同形式……比如单复数都能被搜索到。
    $ |( l! Y9 x/ t9 X% U3 C7 m然后使用notepad++的tidy2进行格式化排版4 Y; ~- X; i7 p/ O% `2 b
    当然你也可以选择不用。+ p0 a# [5 u- V
    主要是用来观察这个词典的格式化排版。
    0 o( `# l6 J4 v+ @词典的排版应该叫html的排版吧……. t" ^& y1 R- ~% t  G- c
    找到规律以后+ V, d  a* [& f% y2 `+ r
    我是用Python使用正则表达式进行提取的, P. f$ U% X' C& U5 q
    比如论坛里比较著名的500万词的那个简明必应
    5 s' g1 o; h+ |/ I9 w他是把html展开了,一行一行的。
    7 t  E$ f" |7 N, J4 a- b但是其他词典的经常都是所有内容压缩在一行里了。
    - l  b" k5 N. z! t' c( k提取的时候要找到标签内的关键词部分。5 O% q- d/ K8 Y, }5 P( R% K

    5 l  p; x4 @2 p/ r( Q; z0 |其实吧……不知道你信不信/ x7 G3 Q6 a3 X% ^
    我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了/ c$ Y5 @! q7 p" y+ g/ c" G; ^
    COCA BNC ANC之类的也都提了……0 W0 H- y2 n+ F. \$ H
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    ( B# A% N4 A% S1 h& X
    , h$ @7 H" g: P& M  i) z4 I我现在就是没时间把这些做成一个完整的查询系统+ P. t& P' N' p
    不过做好了一个词单的对比分析器。8 L+ L# j2 m( K% x$ H5 V% q
    可以对比出两个词单之间的差距
    ' O/ a0 Z2 z; X: J  \. ?" o然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……+ Q$ I. J3 L& q/ Y7 U+ l
    * i! \. X. l' Y3 G
    至于教程……
    $ T; t  u. V- Q, P, _最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑
    & l9 L# u1 Z8 s
    Bouroz 发表于 2018-6-16 18:24
    ( J: G3 `! h' q  |+ x提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    $ [& H6 c1 E. w9 T* r4 _% B1 Y1 Q6 p$ @$ ?
    这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild( u8 h, ?3 O. i
    的分享给你,7天有效期的链接1 V/ P* O2 X3 y( D. _

    ' }( U6 B% ]7 b

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24: n& a, |0 L5 l
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    8 q. ~5 K. v) r: M9 |7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。
    1 @( I+ C6 f6 f# ]5 E+ y链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu
    ; ]! j* S; X; B3 P+ k% o$ k0 F但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:28# \/ B/ o6 S) X; |6 D. f3 Z: P# d
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    ' k: ?+ z, z# y4 ?9 Q& @& z! F1 g您做的JavaScript的排版应该也属于编程部分吧& j, l& L7 G' T1 v2 a1 g, c4 Y. T
    而且也挺繁琐的。  H" s# O7 b2 {5 l
    其实提取词典不比您那个麻烦多少。
    $ F% i# B6 R" `0 v但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。
    ; t9 d9 R- o/ M" ^; W$ |7 B1 u0 _* k) U  g2 m, I' e1 H! C
    我看bt4baidu分享的抓取词典的开源代码部分。
    - c2 l+ L7 f; K6 T/ S好像就包含了如何抓取并且生成各种节点……. H% U# o4 j1 x# i0 g' X

    3 `5 o& S  C! a* H4 {8 h7 D但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    & T3 l" F/ x/ e) k; L. P甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。- _! k+ e+ y6 A" o
    当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的
    9 F6 j; W& C' H我还没完全写好整合# @/ f$ q$ O& q' ]* g
    ! ]; d, [6 k0 w, ~2 v$ p

    8 I7 Z. J' M! Z( C9 o/ n
    ! ^0 \* X: j  A& o这个东西我就先不公布了,理由如上) P4 @% x* W2 l0 d3 k$ c
    就是先自己研究明白了,而且还不知道设计啥版权不呢……4 n: A! T& V, {* N. r! f

    3 f2 C1 P% X. i9 z; j0 @' u+ a) A+ s' x: E这里还得谢谢楼主提示了我用EmEditor这个软件& D, ]6 n9 l% T4 O7 C
    不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:37
    & P& N$ Z8 V% p: f# L含PoS(Part of Speech)词性版的8 w' f1 j. o: \2 y; d
    我还没完全写好整合
    ; R& B+ c: k; X0 r4 Q' ]* A0 r
    非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-9 14:01 , Processed in 0.131180 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表