|
发表于 2016-12-21 22:13:56
|
显示全部楼层
2 E* F9 w9 u4 n8 U个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.. S* z( b! L5 U7 a
. a: L; |3 R; t) H; f- l+ y' E词头
5 f3 n0 f+ u+ S- G释义内容
2 A8 |9 T6 T, A, ]% P</>6 N8 h+ {5 P5 p- }: }' _5 n
7 h; h9 ~0 {. d# d( h
### 一、格式良好的文本数据4 q; B6 Z$ ]- O
- Kindle 文字版电子书(mobi、epub)3 U) }) U' O: i. X* E
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
/ L6 g# B' n; O6 u( v/ [- 区分了词头、内容的两列或多列 Excel 表格2 E* @5 e3 ?+ ?3 e3 X5 P
- 自行整理、总结的各类适合制作为 mdx 的文本
! W8 O" M+ S. p) z- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做+ l2 P. C: f8 D
- 其他
! b, S( \- z; e& B. w* @" c
7 O3 T4 O$ u/ G" C1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.
6 v1 m& A/ w7 o+ d& y+ F 使用 emeditor 提取出所有 <body>与</body> 之间的内容,2 q. I' O3 f, ~+ t
用正则将词头整理出来, 再将</body> 改为</>, . N0 D& b$ L) w$ R& ?( q
最后用 MdxBuilder, 一个初版mdx词典就完成了.
: x. ~! B+ a& `! u: s4 h) s 再来就是要考虑如何排版与精美呈现.
% D# g: S/ Y l3 w
! R1 x" s/ F4 o8 T7 Y
$ U* M/ L- P- w3 ?5 i& F; k2. 例如: 某个JSON格式的词典数据, 内容如:
) @# y6 F8 l0 ]3 ]; F- "notes": [
; G( Z) ~$ g; Q4 Q; H0 L8 q - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。", Y/ k4 @. B( ]% v, K$ G, A: h1 B
- ], % J% k2 P, Z$ S- N$ M
- "chinese": "罗马", V0 O- x7 t' S0 t3 O0 _9 T
- "english": "Rome", |' u0 u" ^9 X6 H/ t, c" A4 V
- },
复制代码
- N" w5 x6 V; G' q( _" } 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
% z: E+ r4 l7 ? 然后将 }, 改为 </>, 完成
) u: z0 e: I9 s: V5 S8 { G) R" L! \ P( H
3. 例如: 某个词频.xls 表格, 内容如下:
* e6 e5 b9 @9 K7 r! u, u- 1 the
8 M6 S: s9 V& a4 V - 2 be _5 F' e" b% o( P
- 3 and3 u# L* I# T$ A% b7 m6 ^3 G
- 4 of0 [+ ^/ c. Y5 X0 I6 X7 L7 o
- 5 a
复制代码 ! M& v6 U8 D5 S1 z
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>5 H7 T; m- E1 m% y
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
! |8 n2 B7 `% N# G. j* o
+ v: C5 Z# E y/ v4. 例如: 某个 基础词汇.doc 文件, 内容如下:
; G) p. e$ E8 ~) E9 T9 N8 ?- 10. absolutely ['æbsəlu:tli] 1 C9 c7 J$ g7 ~* i. o7 e, v: Q: |3 u# a
- adv. 绝对地;完全地;是这样
复制代码 , [( o: z$ f! d/ y, l9 o+ g
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.# J9 o% { R4 e
absolutely1 D7 s5 b0 |; N) C. B. B+ k- I
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>6 [! U8 ~5 ] C/ E: ?
</>4 y" c- A5 c! J
再制做个对应的 .css, 调整颜色与排版, 完成.
& D4 b3 k( s3 d; g7 w) s9 R: f
: y/ P# @( {1 ]5. 例如: 某个词频.pdf 文件, 内容如下:
- E# ~4 |- v' K: @- 1152 absolutely r" k) S# Y) Y' q. z( {0 g9 N- \
- no, right, • nothing, sure, • necessary, ...
复制代码 3 ^/ L9 l+ x7 q' d2 L7 n
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.& _6 h5 z( Z" h. b; p9 o) U
' d" A9 k0 C* Z- b5 c( e. j 不过有些PDF就不是这么顺利了..' L& Y% S3 X9 d" b8 }4 k: @& l
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|