|
发表于 2016-12-21 22:13:56
|
显示全部楼层
: Y. X* g, K$ I4 F# e. N( W个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
: |5 V8 E3 k# d* i( P# Y" |# Q! I8 C
- `$ y9 C$ q' t9 z4 R词头
, V) p' w* @* L, W( r释义内容1 E) V+ ~8 B4 g$ z) i
</> [. q1 J# K; ]1 e# _2 u! F
+ N- ^8 l, f1 X3 N### 一、格式良好的文本数据
- s- b$ X3 C! N3 y. J- Kindle 文字版电子书(mobi、epub)
7 e1 \% s: y( f) H: ^4 p5 P- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]2 L5 V9 b8 h- N% `4 j
- 区分了词头、内容的两列或多列 Excel 表格5 C( P' Q8 }' o/ J3 d
- 自行整理、总结的各类适合制作为 mdx 的文本
5 i/ _+ s% o* D- ^. f- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做$ |, h. f3 u/ @5 T
- 其他
& r6 k5 X" Q! L$ n
* s0 S/ ]9 x) w1 n1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件., e2 `) J! _+ r8 y2 ~
使用 emeditor 提取出所有 <body>与</body> 之间的内容,
* i- B8 O( A* |' i; z 用正则将词头整理出来, 再将</body> 改为</>, + G0 [$ j$ i: r/ Z) M: Z* N! f
最后用 MdxBuilder, 一个初版mdx词典就完成了.) ^9 A7 x e9 t
再来就是要考虑如何排版与精美呈现.
) Y9 U6 H5 q8 c9 s [7 |
& d3 v6 ?2 R0 W/ c# x' O7 X/ Z4 T8 B N; B
2. 例如: 某个JSON格式的词典数据, 内容如:
' U! \. l- H1 y0 Q9 ~- "notes": [; ]% [% G5 X, F+ k4 W# y
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"& s8 \9 A. G* y( P6 {
- ],
6 t5 M8 D" u6 S! u, P" w - "chinese": "罗马",
5 t" Q2 L' E7 ^+ c# T* k o" A - "english": "Rome"$ l, O, q1 S+ M. x, [* ^. t
- },
复制代码
0 u+ w8 h$ p; _/ L3 w, X5 o0 g; ` 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容, o! I, `. Z, M1 V
然后将 }, 改为 </>, 完成
6 W L* I- z0 l' d6 o" j7 O: e( u
3. 例如: 某个词频.xls 表格, 内容如下:
$ I o/ p( B. o5 o' J1 U7 i- 1 the' @6 u5 S. k4 [7 T
- 2 be
) t* W$ n3 D0 Q4 H7 }2 p - 3 and
4 T, e, ^7 F3 l" U; r7 E3 w+ ` - 4 of6 m6 e5 w8 D! \
- 5 a
复制代码 % o* S# v3 y% T6 L3 L3 Q% [1 o
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
$ K _/ J( `$ g 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了; d# p* B. _& p# w3 \8 n2 Q. ?& q2 U
9 ?0 E7 `* e; z
4. 例如: 某个 基础词汇.doc 文件, 内容如下:
; a6 y3 y/ A' m" o1 F- 10. absolutely ['æbsəlu:tli] * ~3 X+ A- \; P1 C* V$ S
- adv. 绝对地;完全地;是这样
复制代码
4 B/ _. W4 s# P 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
+ X: M& w* U; s5 uabsolutely$ O3 q! q0 f; b% B
<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>6 V3 {2 ^7 p5 m, s7 I
</>
D. [7 ? k+ }4 ~ 再制做个对应的 .css, 调整颜色与排版, 完成.5 q* @4 V- Z, C
: F0 w L- B. |& l) h# k8 \" F5. 例如: 某个词频.pdf 文件, 内容如下:+ c5 Q0 H/ L% q9 t3 [3 h7 g
- 1152 absolutely r% g* R/ S/ q' c l9 u2 ?: Z
- no, right, • nothing, sure, • necessary, ...
复制代码 5 q& V u2 S- c5 c# N3 z
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.2 c/ g9 D) T+ d/ n# _: A* G* F
6 |+ }3 m9 ~3 W3 T: q; | 不过有些PDF就不是这么顺利了..3 a7 I( @. }7 E" ?. O/ w
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|