|
发表于 2016-12-21 22:13:56
|
显示全部楼层
0 `- P- h" Y5 K5 J' i8 e* C% `
个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.& T7 v3 D% E/ S3 N+ B- ^8 D* M( g
$ x, E" P8 r. P/ w) _ q词头
* P( @- s5 E2 {释义内容, Z. y9 n; D+ C4 Z
</>
$ u6 e2 h$ p, j) e! \% v" d. F3 T+ a; {+ H2 o% m
### 一、格式良好的文本数据6 t( j( c! V b. L6 e7 K, Z% \
- Kindle 文字版电子书(mobi、epub)3 l1 @. W# P( U9 G
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
" ~7 D* B) e/ |- L4 G' D- 区分了词头、内容的两列或多列 Excel 表格' M: i+ |9 ?" J, S. l9 _- G
- 自行整理、总结的各类适合制作为 mdx 的文本
2 f( K$ h+ K/ b X, i( G) H- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
9 m3 e( w! b4 O! O) f- 其他 ; a& z! z& l6 u
. a" F, W! z! ^& A/ W: P" j1 ~1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.: f$ a5 @/ y1 C3 j0 L: a9 o' p4 D
使用 emeditor 提取出所有 <body>与</body> 之间的内容,
8 {+ l6 V+ I# t/ H8 z 用正则将词头整理出来, 再将</body> 改为</>,
1 T8 y% Q$ C' \* b S x1 s9 B 最后用 MdxBuilder, 一个初版mdx词典就完成了. J1 _' E1 q" f/ k/ }" \
再来就是要考虑如何排版与精美呈现.0 [+ ]4 `5 } x* ^
$ Y$ S. j: A0 T
) W, l2 n& ^. y3 H# a2. 例如: 某个JSON格式的词典数据, 内容如:/ Q: E; T; w# H7 j
- "notes": [
7 k$ ^; O* n* S, K8 s$ l; V! l w7 C: @ - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"! y4 z3 O( i8 Y& G5 `' y
- ],
6 J, |0 N. M6 f8 q0 v" c7 F/ n - "chinese": "罗马",
/ } t9 b0 M' a9 k - "english": "Rome"
# u2 ~- N" G+ ?5 U2 g - },
复制代码
7 T* E3 m- u! p& z: U 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容. O) S5 a2 u5 y: h
然后将 }, 改为 </>, 完成0 q& U5 r6 z4 e( O6 Z
2 n' g9 X3 v, i4 q' M9 {; e
3. 例如: 某个词频.xls 表格, 内容如下:. `: J% I. l2 O( ?+ Y8 K& T4 @: {
- 1 the8 Q/ J: j$ P- L
- 2 be* _- u4 P2 k6 L8 M, ] G
- 3 and
2 r! \; t5 [ Z - 4 of
5 k# u# D1 ]; a6 O1 N$ x7 | - 5 a
复制代码 4 D: {+ {8 [/ x: D \
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
, Y* Y- J# W E; n# L 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
7 Z/ E" ?% p, K, L0 y
/ q; ~) S; X4 Y, P4. 例如: 某个 基础词汇.doc 文件, 内容如下:% h7 r# v8 p C7 E' v* x' M2 U6 U
- 10. absolutely ['æbsəlu:tli]
7 t; \- O3 o6 ^ - adv. 绝对地;完全地;是这样
复制代码 * `1 A: j! U6 T. e* V8 W
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.8 j5 e; W2 c* K1 R' g# a t4 E
absolutely$ Z8 N4 P) d9 ^" S$ ]
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
* F0 ?3 P4 a6 _1 D3 q</>
+ s! `0 Q( ]7 r0 r3 \* V+ ~* i 再制做个对应的 .css, 调整颜色与排版, 完成.6 I; e9 z a7 p6 C3 g( Z6 F j1 R
! H' O7 a, f0 G4 w5. 例如: 某个词频.pdf 文件, 内容如下:
5 G3 O, S( A8 L5 i6 d' G( B- 1152 absolutely r, Q! ^! c/ }7 } E n
- no, right, • nothing, sure, • necessary, ...
复制代码
( |5 _0 J' m* x$ L, z) d: S 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.
$ W& S& q$ S1 T8 |# T) z2 n6 o; [3 I
不过有些PDF就不是这么顺利了..* Z2 V0 Q# |8 j! z& J. k
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|