|
发表于 2016-12-21 22:13:56
|
显示全部楼层
9 I; T. _3 o% l. b- g个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.$ j9 O! |4 n& U. b2 |( T w
2 w' M" \1 O8 F2 @6 N7 Z
词头( [. p: X2 y$ n$ V
释义内容2 _% H! Z3 l2 s/ K# v+ V. v
</>* C0 `( D# H8 d$ Q/ ~4 U; _: |9 m8 z
2 U2 `! o; J" Q* U1 W2 M
### 一、格式良好的文本数据
; E7 K1 W2 H/ E$ y7 W) A- Kindle 文字版电子书(mobi、epub)( B/ t$ T, R& a5 s `
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
5 L) X' r+ t- t* \& `+ [& W/ U- 区分了词头、内容的两列或多列 Excel 表格6 i" \; l5 T) ^$ t
- 自行整理、总结的各类适合制作为 mdx 的文本
2 e3 U5 o' U8 v0 {- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
4 }# Q0 w$ ~+ B' l$ W9 V- 其他
0 r7 K# |* F! ?- [ Z' T# T. |% U7 R% |% u, u) x0 {
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.
) U8 F+ h h* g/ z1 W, h& p# q/ J 使用 emeditor 提取出所有 <body>与</body> 之间的内容,9 P3 L7 K; g1 W' ^
用正则将词头整理出来, 再将</body> 改为</>, * f6 c& H( x& n; m- X& a0 e2 p
最后用 MdxBuilder, 一个初版mdx词典就完成了.
, z) {0 j. P5 I/ Q; Z: [ 再来就是要考虑如何排版与精美呈现.
' @# i( Y' D+ I& \( {6 }/ L# E" y( D. d$ m% _1 h9 t. @
' _: t+ Q% T4 u7 v; B# J$ n- A0 o8 V2. 例如: 某个JSON格式的词典数据, 内容如:
# f; \& T$ \: I6 G- "notes": [9 N2 _ d: b1 q" l' b" ?. X' ]+ \
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。") c2 }7 b2 l) D0 N7 M
- ],
" k7 Y$ P6 y! Y& @/ X- S8 ] - "chinese": "罗马", 0 y9 I/ Q7 U# W4 l, @
- "english": "Rome"; K, h/ y- w/ J2 J! s& T9 g( w, a
- },
复制代码
# w0 o1 a0 v5 W1 j1 ~4 E 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
4 Q0 M( n/ \$ O* _- S+ I; d 然后将 }, 改为 </>, 完成
+ S3 r- L. O! r4 f8 Q" k$ E8 e) N2 }) }- ]1 f3 [& f3 }* l
3. 例如: 某个词频.xls 表格, 内容如下:
6 j/ q* U* F. g' _" B8 W) c* m- 1 the0 S2 f. i: X) R. X( y# G8 k A
- 2 be3 Z- _8 y! a; S3 @" R
- 3 and) L# l7 s% w0 t) \ n0 j8 `1 ?
- 4 of* J2 e6 d" \9 C. \' Y
- 5 a
复制代码
' ?* w, k, k8 ~0 u0 r1 \ 复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
. I |) [- w3 E) N* ~1 {; K 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了; e* {4 e5 U# e6 l' P
( }8 Y7 y3 J4 p5 z4 ~
4. 例如: 某个 基础词汇.doc 文件, 内容如下:
6 }1 u8 `+ C9 Z9 q- 10. absolutely ['æbsəlu:tli] & J0 T; N3 @6 o! S4 D- w7 L
- adv. 绝对地;完全地;是这样
复制代码
+ d2 F/ i/ T5 ~# {" p* q 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.0 ^% G. A# G1 |* M' X: ]
absolutely- S- o- d8 T! e
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
8 Z b2 M- E+ ~7 c. k2 N</>
4 k9 |, y0 m: C 再制做个对应的 .css, 调整颜色与排版, 完成.
; A$ S8 N! F3 N, ]- R6 V2 X' }4 T _3 |4 H9 i
5. 例如: 某个词频.pdf 文件, 内容如下: h5 k) A0 N' B% C! E# m
- 1152 absolutely r" I, v; U! w" Y: l- R
- no, right, • nothing, sure, • necessary, ...
复制代码
% N. b- f7 t7 Q6 }' U. a1 z 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.# \, h/ D, W' g1 z+ S
! _; F% ?0 Q( h
不过有些PDF就不是这么顺利了..
3 U5 n+ z$ \* C: Y/ G |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|