掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 7204|回复: 21

[讨论] MDX转MOBI过程及相关思考(附COED11th.mobi)

[复制链接]
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

    发表于 2019-9-16 17:58:18 | 显示全部楼层 |阅读模式
    本帖最后由 nullname 于 2019-10-12 08:47 编辑
    1 ^* `$ K/ A0 T: S& p
    0 _8 J3 ?! z! ~( f4 i. |8 _00
    ! v0 m, l; a  y0 r% n2 E相较于MDX词典的百花齐放、门类齐全(从学习型再到母语型再到俗语习语俚语等,不一而足。) Kindle用的MOBI词典就显得冷落多了,有意义的词典非常有限,也许是因为Kindle的使用人数很少吧.... 基本就是官方的英英、英汉和 skywind3000 大神的这本 简明英汉必应版 了。
    + p' e$ k6 M' ?, R其他的像书伴上的那些都很难用,主要问题就在于不具备 词形变化 的查询能力。比如书中出现了 looked, raised 这种单词,它们基本都不能直接查询到 look, raise。% U* I% g) _' w8 V. X

    6 P7 O, O* V) P之前在知乎上看见孙缓之的一篇帖子(见此 Kindle OALD9 民间发布(仅限交流使用)),可以用 dsl2mobi 这个工具来将 dsl 词典转化为 mobi,且具备词形变化的查询能力。但貌似 dsl 词典不是太好找。: u' J' ]2 g! _( n

    + A. N; x/ x; l$ f6 ?因此,想试试能否将 MDX 转为 MOBI。教程不多,仅在书伴上找到了这几篇文章。(请见 《如何把 MDX 格式词典转换成 Kindle 字典》《自制 Kindle 字典简明教程(入门篇)》《自制 Kindle 字典简明教程(进阶篇)》* F7 J* z$ w7 \( o2 B, Z3 f8 O; [) J
    8 H, W6 e9 P5 h8 z: T: P, E
    根据  《如何把 MDX 格式词典转换成 Kindle 字典》 这篇教程,转化出来的词典不具备查询 词形变化 的单词的能力。主要原因在于没有添加变化后的单词,如图红色矩形区域(更详细的请见 《自制 Kindle 字典简明教程(进阶篇)》)。
    / g& [2 L9 u3 g1 A

    9 D9 ^% K& V0 z  o以 COED11 举例,这是转换后的 HTML 中的词头部分:
    ) g( J1 |/ d( e. g) ^# [3 m: ~7 S3 L8 ^1 n  v& W4 e+ W2 s1 r( g* x8 Z
    若要具备 词形变化 能力,需要的区块(红色矩形部分):
    # }! y; F& @5 p  Q% u( }7 ?, ~

    ; V# y, ]- l( N) ~. e1 v3 m2 E
    6 s; N; l$ l% A: D+ ]0 ~) ]! [5 O9 ^* i
    我抓破脑袋都想不出怎么样才能自动添加这些进去,后来想起 dsl2mobi 有这个功能,就下载下来研究了一下。该工具是 ruby 写的,基本看不大懂,不过我在其目录下发现了包含十几万英文单词词形变化的 TXT:" W( y5 y7 R5 K1 M' Q8 f
    3 K+ s! k% F# P4 n  D! J) e

    8 ~. O1 L+ D7 Y* n
    1 z5 c  E# p" u# Q+ z) ~& z/ h: Q: M排列比较有规律,格式为  单词原型:变化1,变化2,变化3......  因此用 python 写了正则批量查询添加:
    / O: t; u. X! D  M8 l3 ~

    8 p) d" n/ v6 l4 m7 l5 S+ U" U# o% f0 j7 `
    , _: o, v4 A2 V# H5 x
    跑完之后:
    . x9 V" x' |% \# _  U2 i+ A

    % p% y- I2 ?. X& U
    ! ^/ ]- T, h# ~- g, ^- J1 B( M$ w
    基本原理大概就是从词典中取出主词条单词后再在 forms-EN.txt 中查询匹配,若成功则返回所有的变化形式并添加区块代码。然后重新生成 mobi 。( w4 s2 e1 I! e, L7 c4 Z0 Z

    6 h9 n$ ]0 f3 ~  {( ], E兴冲冲的试了试,/ g" c  C2 K& v

    0 u2 J- n) E% Q( W                          两个看起来都没什么问题,和我们想想中一样。9 k' ~# Z( c; T2 a& X; v# Y: [0 i* c

    2 l+ Z. e+ x% e; Y1 h$ q% g0 B再试试,( q$ j% g' V  ?7 ?; u3 W3 k
    0 h: |  O" z% g
         查询dealt的时候,按设想,应该是查询deal才对,结果并不是。
    / h# [& |7 e/ k# ~5 N% n) E7 |- T" i6 }
    用官方的词典试试: u% a% Q3 a1 Y1 {3 C. U
    + |/ P5 h7 f  e
    同样如此。6 ~( c) y+ g8 {( y7 r% Z& k

      M, F$ Q, a6 G+ _0 K+ d- o1 z0 n
    5 M1 z. j7 k. |) g4 d0 r
    01
    4 Y  N* {0 E6 u; D+ L* x8 m7 v% o8 ?* m
    后来经过反复试验,发现了 Kindle 的查词逻辑:选中单词后,查询主词条是否匹配成功,成功则返回对应的条目,同时不再继续查询变形词条。没有主词条的话则查询词形变化区块是否有匹配,若有则返回变化词条的原型主词条。3 d, {$ N  `( T7 d  D

    # i+ f6 Y4 p) D0 E$ Ndeal 的词条部分已经添加了 dealt 作为变形词条,然而我手中的这版 COED11.mdx 和官方的Oxford Dictionary of English 都有了 dealt 这个主词条,词条内容如上图。因此不会返回 deal 词条的内容。
    ' K! ]. m- |1 ^- D4 h& p/ l
    ) p4 f1 N2 c, C8 p' L9 _0 G) z知道问题所在后,如何解决呢?想了想,很难,因为英语词义太丰富(Rich)了。比如flame,它的词形变化理应有flaming对吧。但是flaming本身可能自成一义(火爆的,讨厌的,该死的),如果查询flaming的时候跳转到了flame,从flame很难猜到flaming的一些专有词义。除非亚马逊更新固件,修改上述的查词逻辑,即不论查不查的到主词条,变形词条所在的原型主词条一并显示。不过目前看来希望渺茫。
    6 N2 }: ]: k1 Z

    ' X6 u- x2 A% V/ K; c
    0 M. w) X% B7 u7 F$ {7 Z: Q7 R$ n
    02
    : |) p% v) z0 z' K: r. c5 R: @' X即使如此,还是有许多优秀的 MDX 词典值得页应该被转化为 mobi 以供大家使用的。个人认为kindle上不适合使用学习型词典这类词义较少的词典。比如你在看书的时候看到了square这个单词,假如你用牛津高阶,你翻到底都翻不到“步兵方阵”这个释义,最后陷入深深的自我怀疑...然后又去提问“为什么我每个单词的意思都看得懂但是就是读不懂句子的意思...”。
    5 g2 K, A$ ]& N/ p& j& X7 q
    6 V% [4 K, S1 `4 E4 @) H* X经过一段时间的试验,我发现 The World Book Dictionary 和 Microsoft Encarta Dictionary 这两本词典非常适合“高阶有余,母语不足”的英语水平者的使用,但把它们转成mobi难度略大......由于水墨屏的特性,kindle 上词典个人以为只需要1.粗体 2. 斜体 3.浅色 这几种样式即可,不要图片、音频。同时要求css内置在mdx中,不能外挂。在此也向各位请教如何将外挂的css内置进mdx中的方法,我尝试了在html中添加style标签然后将css全部复制进去,但似乎并没有效果?各位如果有较好的适合在kindle上使用的词典也可以发出来大家尝试转换。
    7 B& l* G' F0 y9 A9 N% Q" _+ C7 s. G0 h& v+ W
    写的比较乱,抱歉。也欢迎大家交流讨论和指点。
    5 r, E8 p0 A2 [- ?
      `) k' g+ V# r/ J0 y

    8 j" G6 X1 Y, y& R$ h& A5 s最后附上制作完成的COED11th.mobi
    9 I: ?5 J2 g, U
    - Z& l/ |9 V& j- r& r5 A& u* ?
    ! }5 _# L% A: g( @4 h2 C
    链接: https://pan.baidu.com/s/1TyMK4P1A6ltCEDr2Bt_rNg 提取码: zp3b   Z/ G( S9 o* @. Y' |% ?. S

    % }3 N% S! \! k# u9 O----------------------2019.10.12补链----------------------
    ( D0 L, P* {7 l$ ]链接: https://pan.baidu.com/s/1bSRfcScur482utaLmsxOgg 提取码: 4b5h
    ( J  U& ]  q) f4 r- i9 v% \3 B
    0 }4 }+ Q* ^: h6 R# x2 Y- u

    ! ]6 A6 }) K/ |  I( W7 \
    / J2 x/ Z! m! A* u$ }& r' g
    ' w$ h, `# a, ?6 k/ [. P

    7 t8 @$ e4 {: r; O- i" W6 A6 ^9 J8 D& ^( f4 r. I
    # h7 j, c( K0 ?: q/ C8 u+ U4 W( e

    ' i9 I1 r5 G0 F8 b1 Z2 F$ V

    + {- |% t) G+ {7 s- u3 S
    ! \7 a% P) \% ~- R4 U3 S9 X# t" D4 I8 ^) X+ @

    1 W* g& c! I5 P/ t/ j$ G) r2 A5 t

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    评分

    3

    查看全部评分

    本帖被以下淘专辑推荐:

  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2019-9-16 18:36:15 | 显示全部楼层
    按浏览器加载css文件的逻辑(不包括css外挂,css外挂是MDict和Eudic默认允许的非通行标准做法,国际软件一般还未支持)的三种:5 m: L0 C8 ~- O
    1. html tag 上的style, inline,如 <div style="font-size:14px">
    ! t, a3 l- y2 ^" q  w2. <style>div {font-size:14px;}</style>
    1 F5 k8 A7 L$ a3 j3. <link href="styles.css">
    5 G  \$ o: q/ G: |* a
      E, K9 `) n8 [$ v) J/ D第三种,根据mdict的设计逻辑,可以放到mdd文件中;前两种,直接在mdx文件中。
    ) C- n+ ]  h% Q7 e. a
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-9-16 19:24:53 | 显示全部楼层
    00开头,程序员无疑了
  • TA的每日心情
    奋斗
    2019-4-14 02:12
  • 签到天数: 93 天

    [LV.6]常住居民II

    发表于 2019-9-16 19:25:15 | 显示全部楼层
    看了下这个源码跟mac词典源码有点像
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-16 19:39:05 | 显示全部楼层
    johannhuang 发表于 2019-9-16 18:36
    * h6 f# z/ f' r. f, W按浏览器加载css文件的逻辑(不包括css外挂,css外挂是MDict和Eudic默认允许的非通行标准做法,国际软件一 ...
    7 _: b+ ^" j  v5 ^- p4 b
    学习了,不过我想的是是否有什么方法能将现成的外挂css中的样式还原进mdx中呢?因为mdx差不多本身就是多个html
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-16 19:39:57 | 显示全部楼层
    jonah_w 发表于 2019-9-16 19:25* v* S# f! ~1 ]' _0 ^& ]
    看了下这个源码跟mac词典源码有点像
    ' ?7 j8 U% p4 Y3 W) w0 w5 A
    可惜只是像...若是一样的那大神就很多了..
  • TA的每日心情
    擦汗
    2024-2-8 08:54
  • 签到天数: 902 天

    [LV.10]以坛为家III

    发表于 2019-9-16 20:12:37 | 显示全部楼层
    Great you are! thanks for sharing
  • TA的每日心情
    开心
    2018-7-30 20:23
  • 签到天数: 9 天

    [LV.3]偶尔看看II

    发表于 2019-9-16 20:26:44 | 显示全部楼层
    希望像楼主这样的热心肠同时技术又高超的人越来越多,Kindle词典的资源确实很少,而且官网的都很陈旧了,thesaurus 就相当于没有,作为用Kindle学习英语的人来讲,还是有小小的失望
  • TA的每日心情
    慵懒
    2020-5-3 16:00
  • 签到天数: 207 天

    [LV.7]常住居民III

    发表于 2019-9-16 21:46:58 | 显示全部楼层
    nullname 发表于 2019-9-16 19:398 W8 z# O6 ?7 P+ G3 D; c7 q- l
    学习了,不过我想的是是否有什么方法能将现成的外挂css中的样式还原进mdx中呢?因为mdx差不多本身就是多 ...

    ; R, G7 t. t, E" }. R* _( B: C1. 解包mdd,加入css再打包,同时修改mdx里面得css引用( F0 y# C+ a3 e- z/ k
    2. 在mdx中按照前述方法2进行加style (但你似乎说了不行,不知道你为什么不行,可能有局部出错了)
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-17 08:29:36 | 显示全部楼层
    johannhuang 发表于 2019-9-16 21:46# h9 v- {9 a9 S4 w% n
    1. 解包mdd,加入css再打包,同时修改mdx里面得css引用, z* M3 ~9 |. m' O
    2. 在mdx中按照前述方法2进行加style (但你似乎 ...
    1 e7 P' X6 G2 P
    我再试了下,这次删掉了一些比较高级的样式,有效果,一些颜色斜体之类的能显示,这样看来,应该是kindle的mobi不支持太多高级CSS,只支持简单的
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-9-17 16:39:05 | 显示全部楼层
    试了一下午,崩溃了。可以插入外置CSS,在此篇文章《如何把 MDX 格式词典转换成 Kindle 字典》第三步之后生成的html文件<body>标签之前可插入<head><link rel.xxxxxxxx></head>来引用外部CSS,但是不知为何生成的margin和padding等在html中显示正常生成mobi后怎么页不正常。

    该用户从未签到

    发表于 2019-9-23 16:28:01 | 显示全部楼层
    楼主,很巧,我这两天也是在忙着转一部词根词缀的词典为mobi,按照书伴的方法做出来了,只是不支持模糊搜索,遂觉得很难受,查了一番后,刚巧也看到了知乎专栏上的dsl教程,只是我这本词典并无dsl格式,网上遍寻又是找不到mdx转dlc的方法,看到楼主的方法,我也想批量增加变形,只是Python还没入门,不知楼主能否分享一下Python代码,我自己试一试,恳求

    点评

    我正在制作一部Kindle词典,为解决一些问题写了两个工具,其中一个就是这个。等我近期整理  发表于 2019-9-23 18:12

    该用户从未签到

    发表于 2019-9-24 08:13:11 | 显示全部楼层
    天赋的太阳 发表于 2019-9-23 16:28& J/ e7 X( f7 l  z# {
    楼主,很巧,我这两天也是在忙着转一部词根词缀的词典为mobi,按照书伴的方法做出来了,只是不支持模糊搜索 ...
    3 Q, q7 j( y5 s" z7 M0 A9 i
    好,支持,感谢
  • TA的每日心情

    2023-12-13 15:25
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2019-10-11 20:24:57 | 显示全部楼层
    不好意思打扰了,楼主,链接挂了... :-P
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-10-12 08:48:08 | 显示全部楼层
    vicizero 发表于 2019-10-11 20:24+ K! h7 M5 Q' l5 x  }
    不好意思打扰了,楼主,链接挂了... :-P
    4 q# H9 n9 I7 H  g; G
    分享链接已补
  • TA的每日心情

    2023-12-13 15:25
  • 签到天数: 4 天

    [LV.2]偶尔看看I

    发表于 2019-10-12 23:05:58 | 显示全部楼层
    nullname 发表于 2019-10-12 08:48
    7 D) d- v( ]6 s# P% [* h5 K* k分享链接已补
    2 \# J. E- p  x; o
    好的,已收到,正尝试使用
  • TA的每日心情
    开心
    2019-3-26 21:36
  • 签到天数: 178 天

    [LV.7]常住居民III

    发表于 2019-10-13 01:24:40 | 显示全部楼层
    本帖最后由 流星冲击 于 2019-10-13 01:28 编辑
    9 A( Q5 ?, H* C: a5 o3 j6 i
    & G  o) N6 H! l. D+ K8 l转macos词典和kindle词典最好的源文本格式是stardict格式,而不是mdict(mdx)和lingvo(dsl)格式,stardict可以通过词头添加|来实现查询词条变形,例如walk|walks|walked|walking(mdict需要用@@@link来实现),用pyglossry转成macos词典源码就自动转成相应的词性变化的词条索引,查walked会自动跳转到walk。# t+ w7 x- U5 W; J3 G5 |2 D' m
    epub dict文档的格式、kindle词典、macos词典、epwing词典的源码在处理词性变化索引都是一致的,源码也类似。kindle词典还停留在xhtml时代,不支持音视频,支持css元素少,不开源,可能受限于机器性能,所以一直没有kindle fire8制式(类似epub3)的开发文档。
    , q$ _# |6 N: Q' r; D' jepub dict有开发文档了,但没有编译器和相关阅读器来支持,用epub3制式来开发一款词典,可用的css元素相当多,之前想用encarta dictionary研究如何转成epub,发现只能作阅读使用,不能用来查询单词,就放弃了。epwing的词头索引适合做日本语的词条索引,当然也适用于印欧语的词性变化词典的索引,但不支持css。macos词典自从2011年以来,苹果就没对其格式进行大的修改,可能js方面兼容性有问题,css应该没问题,用三指查询macos词典可是会上瘾的(即点生词即弹出解释界面,非常方便)。# \+ k# `# U- I& e' T5 E
    所以我的思路是,dsl,mdx等格式,先转成stardict,由于stardict开源,工具多,转换成mobi的源码可能会自带词性变形。
    / F  w9 V8 H( s9 d8 z还有mdx内嵌style标签,需要每个词头content都要包含,你是想让mobi每个词条都实现某些css效果吧,mobi7不是可以内嵌css吗?为什么还要内嵌style标签?当然,我没有转过mobi词典,只是提出疑问,没有打击楼主制作mobi词典的热情。
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-10-13 09:11:32 | 显示全部楼层
    本帖最后由 nullname 于 2019-10-13 09:12 编辑 6 k# N9 L' ~4 M, Q3 f% }
    流星冲击 发表于 2019-10-13 01:247 T1 S  l/ M2 Q* [7 }
    转macos词典和kindle词典最好的源文本格式是stardict格式,而不是mdict(mdx)和lingvo(dsl)格式,stardict可 ...

    2 x7 |' f; g. N$ b是的,书伴上的教程也是这个原理,即MDX转StarDict再转tab文件再转OPF最后转MOBI。因为tab2opf这个工具比较方便,且tab文件的格式也比较友好(每个词条由词头tab空格意向这三个部分组成),所以只要能转成tab即可,后来我也发现了pyglossary这个工具,但是该工具有个缺点就是转一些词典(尤其是一些汉语辞典)的时候,tab文件中意项部分全部都是数字形式的CSS,可能是该辞典在用MDXBuilder生成的时候添加了style资源。) u" k0 }+ [3 M0 u, o$ }0 M2 b7 V' Q
    " x1 Z1 V' {  r4 h! V
    dsl2mobi这个工具可以直接为dsl词典生成带有词性变化的mobi,但是考虑到词典内本身存在的大量@LINK跳转,最好还是解包后进一步处理较好。. r' O( G. ^6 C/ m/ W
    # H( G; e+ P+ }" P% n& `, ~
    关于内嵌CSS,此篇帖子发出后我又经过试验搜索,最终得出的结论是,可以支持外挂CSS,在每个HTML文件的头部添加LINK即可。层主可以看看这篇:https://www.pdawiki.com/forum/forum.php?mod=viewthread&tid=36130
  • TA的每日心情
    慵懒
    2024-1-31 14:20
  • 签到天数: 121 天

    [LV.7]常住居民III

    发表于 2019-10-22 18:28:39 | 显示全部楼层
    楼主,在下学习心切,也向你恳求相关Python代码,anyway,我已不胜感激。。。
  • TA的每日心情
    开心
    2023-9-27 20:45
  • 签到天数: 847 天

    [LV.10]以坛为家III

     楼主| 发表于 2019-10-22 19:18:37 | 显示全部楼层
    vpda2016 发表于 2019-10-22 18:286 R9 R- [4 J$ x6 F
    楼主,在下学习心切,也向你恳求相关Python代码,anyway,我已不胜感激。。。 ...

    9 f) O; y- q; n) X4 L' r代码已经发了,在这个帖子里面
    & j  i0 E9 w: P' k
    : z% s: V! V# PPython辅助MDX转MOBI(以AHD5th为例)+ w6 U6 G7 l" ]8 G# c. `
    https://www.pdawiki.com/forum/fo ... hread&tid=361304 L4 B; {6 B9 \7 f' c# `# J
    (出处: 掌上百科 - PDAWIKI); D6 K0 y' D& Q6 L) |6 T7 D0 N
  • TA的每日心情
    慵懒
    2024-1-31 14:20
  • 签到天数: 121 天

    [LV.7]常住居民III

    发表于 2019-10-22 19:32:25 | 显示全部楼层
    nullname 发表于 2019-10-22 19:18
    9 E: ~: @; g9 ^代码已经发了,在这个帖子里面5 e1 p7 d5 C# o% i1 B2 d2 |  y
    " K- j( C1 M0 j9 S  n0 z  }  Z
    Python辅助MDX转MOBI(以AHD5th为例)

    3 u5 }6 x9 Q. ^7 g, h: X& _5 M1 E正在看,谢谢亲。大神。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-26 19:45 , Processed in 0.074407 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表