掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 2494|回复: 19

[教程] 简单的合词典

  [复制链接]
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

    发表于 2018-4-18 21:42:27 | 显示全部楼层 |阅读模式
    本帖最后由 Yyang. 于 2018-4-18 23:45 编辑
    8 C* D% k/ b/ G  M5 n5 \' o  h, n2 M& m0 _+ c% R5 ^  G/ E
    / B  H$ A- n. p1 F" _$ X9 R9 C
    额...希望ff大 不要怪我。每一次都是用你的词典来举例子。1 \- ?6 a6 N$ Z. z" I+ Y2 X
    没有办法谁让你的词典那么具有代表性呢
    + q: d( N" t3 O4 D' w
    6 p+ d7 f, m3 i& [大家在用小型的功能词典时,要分辨安装好多小词典,现在用这个合并就可以把几个小词典合在一起,方便使用。1 i$ u1 w# Y5 i& ]5 N, R- O

    0 }* V. H8 J( j! L1.这个按照软件作者来说,是可以无限的合成词典
    7 v' m; a/ G4 p  S: J5 G$ @% j2.这个方法适合大量的词典: m6 M  u+ P+ s% c! V: J* }
    3.这个方法是mdx解压得到txt,对txt的合并
    ( Q: r  n" y- v! u4.存在问题( y0 H" \1 M7 P( m& c) v
        1.适合小型的词典
    0 F: a' K6 m- E0 _$ M    2.没有复杂的css7 ^, l- ^, X7 A" M- s! W! x
        3.没有或者很少的js
    7 Z" `, j2 l. a4 D  r    4.没有跳转- i: F% ]- g8 O# P% Q/ M
        5.没有大量的图片9 h; @$ z; b& Z6 T. j
        6.没有语音的2 s$ c" N8 I7 k2 @* T0 ?

    , F6 q0 M6 h2 f: z3 j6 D+ F

    . Z0 d0 |' M& F3 s6 x, j) O- H5 {- s+ |( D- n( |4 J
    一 需要软件. y- E5 J; _# e, d2 @
    1.[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具
    3 ~& o8 X7 z5 }6 ]/ I, Dhttps://www.pdawiki.com/forum/thread-17709-1-1.html( [- f( D; I) ~8 x
    2.[MDXBuilder] MdxBuilder 3.0 Beta2: x" O) s4 Y) O1 D0 |
    https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747( ?6 B6 w6 u7 J5 w
    3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    * o% w$ M: f  g- k- v) Lhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747
    . g' i" K" V& g$ D& s6 A
    ( |0 K' U3 i$ ]! X8 Q, `9 ?2 ]第一步
    $ `' }% _+ T8 G- ^+ f4 w使用[2018-3-3]MdxExport3.5-MDX与MDD资源导出小工具对mdx转换,转换为txt格式
      B  C2 l& M+ L' U7 ~. E' [) q( o9 {3 ]
    同理,对lang5++转换,得到
    * O' x0 B, n6 k" Q- }2 _+ ?" M
    ) G4 O5 p4 {% m$ Z- q! r
    / V6 ]1 H" v/ A& {! A* B! b第二步+ s% [$ o/ H4 t
    我们主力的软件3.Mdict Editor Tool v2.0.35 -- 多功能个性化词典制作工具
    6 B+ f, N% y7 c% a7 I; q2 dhttps://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=3747* ^8 Q! G3 P( W3 m! E6 Y

    7 m! c  ]8 A8 A: l/ F! `注意事项:1)css,js的生成名称是不能改的,必须和你设置的一模一样,否则无法检测到css,这里的css控制的是js词典跳转的按钮处格式和全局格式的控制
    % v7 J  [9 N3 K5 \" P1 b- V, Q但是,仅仅使用这个新的css是不可以的,当设置好了新css,不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹8 p7 j$ x+ n% M+ X% p0 \
    . L: |" y  g+ L( @4 |& P" Y
    / |6 ~) S, \& c+ A' a

    . Y+ o, q+ P! _* z' F* l得到这个
    ! b: O$ C5 x3 K4 f( }
    , A: M: N- M1 I' `, ~* t
    0 ]* ~4 z1 u4 B) J不想再麻烦调整新的排版,沿用之前的排版,那么就把之前的xxx1.css,xxx2.css,sss.css全部放到文件夹里面,比如文件夹叫测试文件夹,那就把以前除了mdx以外的js.css.mdd等全部放入测试文件夹
    1 @6 U( Y4 d2 d4 {1 k+ b& `7 @% [) B- W- s/ r- c

    # S% ]. S/ U2 z4 [让我们来看看效果图) d& V/ U: X- e; p! g
    1.部分排版出现错误,js跳转没有问题,
    8 G1 k8 p! G& G3 P2.在线发音和离线发音都是可以的,想要在线发音,本词典必须放在第一位
    / @" c  M2 c/ Y3.css可以修改

    + @( Z4 \* D5 {9 ]+ m5 G: B  p0 X9 t7 ~' o( h
    4 k6 k' A8 m( U' L' I9 k

    ! ~0 u; j9 G/ N" D2 d, K: N% V由于是合成的词典,定有一定的概率出现js失灵,尤其是在两个或者多个词典在同一界面下的跳转
    $ R$ r0 q+ ?, M$ x, w8 v3 U+ g由于会出现加载问题,本词典必须放在第一位

    , a' q1 J2 y" K  U
    & y$ J( u0 u  Y. v% S% c那怎么办尽可能的避免上述的瑕疵?于是根据自己的喜好,通过替换display:none实现全部展开3 G) S; X) N: x! _4 e7 @

    ' \; I8 y( H: r- D6 r4 r9 ^这就有一点比较麻烦,比如查找go这个单词,要在屏幕上滑动好久才能到第二个词典
    2 N) M$ i( F  L$ p/ o/ C, q
    & i* b, j, e9 w% C) M8 s: n# H0 s需要的工具% K2 E3 X, z  g" T0 k& h% |* b

    , B" G) s' b, W' t8 _5 N1..emeditor64 百度
    2 R  e& l4 c# p! I2.MDict
    4 o# m. K+ S! u- G3 `) G+ Shttp://www.mdict.cn/wp/?lang=zh
    7 k$ }& o: D8 d! k( e* P3.Google浏览器5 v7 l& A' @: l$ U9 v8 r2 o: ]9 Y. M
    7 ^1 y9 N4 H% j
    我们来通过牛津搭配和牛津同义词字典来看看
    # U  D7 j$ t% e, g* a5 }我们还是老方法得到两个合并在一起的txt,实现替换
    0 g& l0 }$ n: S& j/ W6 {* w8 k6 r
    8 P) W4 t: C6 \# r
    得到mdx( F: L/ [9 e5 x& H6 J

    # X4 K0 I4 z* w  J- [我们来改css,详细步骤看我另外一个帖子超级零基础小小小白Css修改教程贴,说下大致步骤
    7 w- d$ {- r6 A1.使用mdict,打开我们得到的 测试文件牛津动词.mdx# G7 `' D2 B! j: q
    2.提取源0 a7 P$ g* ^6 K2 E& m
    3.使用Google打开  go.html& J/ f$ c1 S9 e3 |! ]$ r+ k# o
    4.使用MdxExport.exe打开mdd得到之前他们两个的css8 [5 q  ~4 R* H* \1 C

    - V" Z( M* f) j! s* i. s: v/ `我们查看测试文件牛津动词.mdx 排版一片混乱
    2 r' B# k: S, \+ `+ e! q* R  {( E2 b- ^* _" l; l
    , `0 m- @# \/ ~) O" [1 S& r8 Y
    我们使用这个新的css导入看看是什么样
    / w' B( L7 j; w, ^/ k
    # Z1 P9 v1 n# [5 P2 B1 v  Y6 R( y3 c, A" o) ?2 }
    我们导入之前原有的css
    0 G( _' u  s* D* q* q2 |: A; i0 \% t' ~
    . t- p+ ^9 [% S
    修改新的css来删除标题字样' g+ i/ d# Y! m+ M/ \- ^# n) Z3 r, s

    ' Z/ Q$ i, U' q& m
    , s  V: h4 ?% }- Y
    + F& \$ M' a; L7 R. J6 z我们开始合并,使用MdxBuilder6 g2 I& k9 x9 S3 Y9 w2 Y$ k
    ! Y- w) j7 H8 M# L: R
      {$ T. A4 U2 z
    我们看看效果图$ e5 P5 i3 L, |" H- ?( B( C

    : ?! |+ j5 d! e; S# @8 \. I8 V# x4 h9 F1 Z% f
    大爷都读到这里了给一个咱呗,1米2米不嫌少,50,100米来着不拒~
    3 J2 q% ^2 p8 d2 @; y
    2 S. G7 e) w' Z
    1 F) U1 f3 \6 F7 m. J

    9 G3 H6 l  }, @/ R

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    2

    查看全部评分

  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-5-8 11:38:59 | 显示全部楼层
    先码再看……
    9 w6 [8 S3 y8 m我粗略的看了一下& L+ P4 h/ [6 T, c0 y1 {
    似乎是比较简单粗暴的合并方式?
    9 H7 r( U3 z/ c3 l& t我还是想自己提取节点数据,然后再写节点……

    评分

    1

    查看全部评分

  • TA的每日心情
    奋斗
    2019-5-8 11:21
  • 签到天数: 118 天

    [LV.6]常住居民II

    发表于 2018-4-18 23:15:37 | 显示全部楼层
    地主家也没余粮了。,感谢分享技术!!

    评分

    1

    查看全部评分

  • TA的每日心情
    开心
    2020-1-15 17:24
  • 签到天数: 219 天

    [LV.7]常住居民III

    发表于 2018-5-8 10:23:25 来自手机 | 显示全部楼层
    学习了,谢谢大大
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 10:57:32 来自手机 | 显示全部楼层
    感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办?
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 12:55:11 | 显示全部楼层
    Bouroz 发表于 2018-6-16 10:57
    5 |+ w8 r' U6 B4 O8 W! u感谢教程贴,很有帮助,另外新手求教,mdict editor tool使用时,清空out文件失败,无法运行,怎么办? ...
    ; y0 j) L; o" U( @
    ....额 请问为什么要清空 out 文件呢?
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:02:56 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 12:55
    : ?, _0 k3 H& `& ]....额 请问为什么要清空 out 文件呢?

    $ S# b- N0 @! t  S& @那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:04:00 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:02
    4 W2 r7 u+ n& O. z+ n7 G那软件打开一运行就这样,弹对话框示错,那贴后面也有人反应过这个问题,作者没有回复,我再试试吧 ...

    , l" V3 ]9 Y% t6 I2 `这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:13:33 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:04* T) D9 Y. d3 g7 ]0 `9 `! Y9 {
    这个我就不怎么清楚了 我也不太了解 帮不上忙 我的系统是win 64位

    + W5 {: \  L! ]- R9 M5 B3 ^  S" e+ I我的也是,win7都不行,我有时间再试试看吧
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:23:45 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:13( }0 @4 @2 `/ X" o# O2 q
    我的也是,win7都不行,我有时间再试试看吧

    ( i- Q7 l  ^" V' P/ H  F2 ?! C嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 13:26:43 来自手机 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:23
    - M5 q+ s# `* t: B1 G嘿嘿 这个是粗暴的合词典 正如四楼/QQending2/所说 提取节点数据,然后再写节点再好不过了 ...
    , ?. C" o; U9 x. |
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧……
  • TA的每日心情

    2018-6-16 18:13
  • 签到天数: 158 天

    [LV.7]常住居民III

     楼主| 发表于 2018-6-16 13:28:02 | 显示全部楼层
    Bouroz 发表于 2018-6-16 13:26( X% q/ g% b, ]  M8 E7 g
    那么我就有问题了,什么是节点数?新手不懂哈????,要不我还是继续默默的小改版吧…… ...
    $ A* F3 D) r' n9 [& Q/ o( [' ]
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-16 18:24:03 | 显示全部楼层
    QQending2 发表于 2018-5-8 11:38
      E) |. U; l( q2 i% R% V先码再看……% Y: k" L9 O+ v# q
    我粗略的看了一下+ B: l* ]' s% F
    似乎是比较简单粗暴的合并方式?

    0 X5 g8 i* J; s; U/ U, H提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:18:52 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:38 编辑
    " d( c* u2 L7 j7 l  H' }
    Bouroz 发表于 2018-6-16 18:24
      [/ V/ }. `1 i  o; `, e提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...
    8 L  \$ q( Y5 t1 K4 H
    + e! H/ ~8 w" \  I
    我也没系统化学过编程……
    5 v8 f$ a  v! P! l; ?, _/ s先用论坛给的解压工具把mdx解开
    2 r+ b9 U: b. @使用EmEditor找到一个最具特征的单词(entry)
    2 j6 P; N# E- k提取出单词对应的那部分( h- x+ ^- C! D( j+ p
    为啥叫entry,因为不同entry有时候指向的是同一个单词
    * P/ j4 A2 i9 m只不过有时候为了单词的不同形式……比如单复数都能被搜索到。% B5 T& j  b* Z1 n
    然后使用notepad++的tidy2进行格式化排版: r9 N8 z6 {! C- Q7 C6 v. W7 \
    当然你也可以选择不用。
    # f* {* C0 [+ ]' c* o主要是用来观察这个词典的格式化排版。
    7 j6 s; T; {) ]9 @$ _词典的排版应该叫html的排版吧……' G$ P7 X$ k& i5 c2 J
    找到规律以后+ k5 Q7 i& S* o4 ?) N
    我是用Python使用正则表达式进行提取的
    4 B% `" O! F0 d, }比如论坛里比较著名的500万词的那个简明必应
    1 o# j! g. ?6 q* ]8 i7 v9 [他是把html展开了,一行一行的。
    2 T0 W- j. q; K8 \; p2 \! w但是其他词典的经常都是所有内容压缩在一行里了。
      u% t$ |, T6 A  [" L9 W; s提取的时候要找到标签内的关键词部分。6 H- @8 b- H+ \* ~6 ^- `2 W
    + X8 c- W8 i; y6 V# y
    其实吧……不知道你信不信
    " ^9 R1 ?2 B! U+ i" V. {' Y7 E! N我把论坛内的柯林斯 朗文 牛津 麦克米伦的词频都提了
    9 b+ P2 ?& W$ b8 R6 RCOCA BNC ANC之类的也都提了……# f2 p  k) ]# w3 O) }9 b
    但是语料库的,我发现人家官网的Sample就是按照rank排序的,只不过没有Freq
    * z8 \! C* I4 [6 |
    : G1 d9 N  S% _3 o  d- Z4 b我现在就是没时间把这些做成一个完整的查询系统
    3 B' i3 }. }; g* D# a! N不过做好了一个词单的对比分析器。
    1 F; d  l0 K4 n% z4 z1 I& r8 u可以对比出两个词单之间的差距
    : J/ o/ E2 i2 U; K# }然后他们本身分布在上述语料库和词典的词频(RANK)分布如何……
    + E7 J" t7 W  g" {/ s" s4 o' t. J! a: i
    至于教程……
    , Y* _1 q! `# }7 Y+ g  k# d$ W最近在复习考研,都挺久没上论坛了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:22:02 | 显示全部楼层
    本帖最后由 QQending2 于 2018-6-20 10:32 编辑
    8 m- `) P: N; u. U+ w
    Bouroz 发表于 2018-6-16 18:24
    ! B4 E0 F8 k9 o- `提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    / t# q. [2 n! x" }" i' X" f/ m% H
    7 y" o" J  I0 ?* s9 x% _3 \这样吧,我把提取出来的FF大Collins Cobuild和2017.5那份很多道理的Collins Cobuild7 g3 R, `; {; L- R
    的分享给你,7天有效期的链接% v3 h( v+ _! ?* P( j0 \
    9 T+ k0 }3 A' w

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:28:19 | 显示全部楼层
    Bouroz 发表于 2018-6-16 18:24+ s( \, l9 O0 W9 }) g! w6 U( Y
    提取节点的方法,有教程贴吗?最近想提取柯林斯的词频,然后加到我的词频词典里 ...

    0 \2 z7 }6 j, d5 O3 n3 P6 b7天有效期……东西以后是要完全公布的,如果抓取源的大佬对抓取后再次分享发布不抵触的话。1 w. G; x( E! T( o
    链接:https://pan.baidu.com/s/1BeE-t51SD32TI6lWSsBN3w 密码:r9iu1 s1 a/ O7 C" d7 x/ ]# Q
    但是暂时各种东西没做完,我就不单独把所有的研究材料发出来了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:31:21 | 显示全部楼层
    Yyang. 发表于 2018-6-16 13:284 B' l( e) B% y0 }
    哈哈哈 我也不太懂 可能需要编程啥的 太高深了

    & s8 q! I( E  A您做的JavaScript的排版应该也属于编程部分吧6 H  n" Z$ E3 O- L
    而且也挺繁琐的。
    , q2 @6 [9 k) {其实提取词典不比您那个麻烦多少。$ D0 {: [) D# v1 s; s  a
    但是如果跟防抓的词典网站折腾,那估计就有的弯弯绕了。4 r: y* f$ V7 k
    & w, D7 L4 `% ?- X! }! m
    我看bt4baidu分享的抓取词典的开源代码部分。
    : Z: `( S; a" j6 {3 T; ?. P好像就包含了如何抓取并且生成各种节点……
    , h8 z. n* V: L+ B& Z, ~6 S3 G: b
    但是总归,只要符合规定的html标准,其他的就按照自己的心意来就行了。
    + `+ s9 r1 i% {甚至可以基本上不用后期的Javascript或者jQuery之类的进行二次处理可能都能有一定排版。
    0 I/ x+ d1 m$ M: l" V当然,自己如果把排版设置的太死,后面修改都不方便了。
  • TA的每日心情
    开心
    2020-5-23 22:47
  • 签到天数: 128 天

    [LV.7]常住居民III

    发表于 2018-6-20 10:37:41 | 显示全部楼层
    含PoS(Part of Speech)词性版的2 V/ A! y4 @# e: i) W- f
    我还没完全写好整合
    - @# Z' n1 A7 ^  H  N8 J, d% O2 h0 k# b

    ' ~0 O1 t( U: I+ g& U, ?3 f. a$ u
    这个东西我就先不公布了,理由如上3 R( m( r  {/ a+ c9 Z
    就是先自己研究明白了,而且还不知道设计啥版权不呢……
    ' {# w3 R3 p' c9 L; d1 P! l7 v* H; t" T
    这里还得谢谢楼主提示了我用EmEditor这个软件" W' L8 J" M6 x5 [0 ~6 l
    不然大量数据的观看真是要死要死人的

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x
  • TA的每日心情
    擦汗
    2020-2-7 12:22
  • 签到天数: 44 天

    [LV.5]常住居民I

    发表于 2018-6-21 08:28:19 | 显示全部楼层
    QQending2 发表于 2018-6-20 10:377 @& ?; ]# k. }/ d/ @$ \, t
    含PoS(Part of Speech)词性版的
    2 }6 Q9 L7 _+ E6 H我还没完全写好整合
    9 ^. z- ?; p( Z; f8 W% x% J8 c9 b
    非常感谢你的回复和帮助,词典我就不下了,我前两天新更新了一版词频词典,欢迎你的使用,也期待着你的大作!https://www.pdawiki.com/forum/fo ... p;extra=&page=1
  • TA的每日心情
    奋斗
    2021-2-8 13:58
  • 签到天数: 161 天

    [LV.7]常住居民III

    发表于 2018-6-21 09:58:50 | 显示全部楼层
    这个楼主怎么被禁言了,发了不少css改编作品,总体还不错的。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-31 14:05 , Processed in 0.062506 second(s), 12 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表