|
发表于 2016-12-21 22:13:56
|
显示全部楼层
% K2 R3 Z' \* A& c* T5 b% L个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
! X+ P2 N! y- z' R: v/ B% z' E9 N+ ?# c2 z! u0 @8 C
词头% x7 ?4 z2 B" `4 Q
释义内容 i4 ^* Q/ y# p' t
</>2 N c C7 r4 \: g
: H8 ]* S8 r* C1 p+ |" _### 一、格式良好的文本数据
+ k: m" c0 n5 M1 C0 D- U$ \* _- Kindle 文字版电子书(mobi、epub)/ V6 l, J7 h# w9 W: h. r. q$ G
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
$ e; n8 O6 R" r/ u: {, |3 N- 区分了词头、内容的两列或多列 Excel 表格- V: V3 O# \* \4 G$ h
- 自行整理、总结的各类适合制作为 mdx 的文本
" Q! m8 ~( Z3 {* k- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做 U' O2 _. E2 l' s J* j
- 其他
: @. }" _* M" h3 @' R) Z4 J
& ^4 G$ E+ s% o }1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件./ a4 X! X) x) V2 T
使用 emeditor 提取出所有 <body>与</body> 之间的内容,
# O# n0 s8 u$ U9 d+ H 用正则将词头整理出来, 再将</body> 改为</>, ' R3 `/ |4 y+ v" N
最后用 MdxBuilder, 一个初版mdx词典就完成了.
1 D# ^$ d7 n7 o9 V+ v6 Z 再来就是要考虑如何排版与精美呈现.) g! O- M1 H% _2 o5 E
8 ~+ Z! i/ V1 X. C! c7 t, n# f$ d* B' S
q A: K* U5 Q: v2. 例如: 某个JSON格式的词典数据, 内容如:* F, N+ t% }' }- f5 l* R& R
- "notes": [+ t# u) \( S2 E* V! v
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"* b6 R; x" ^& v, C
- ], * {* {3 b; ]. N9 t2 W* W. X( W8 n
- "chinese": "罗马",
- V4 X! j2 H/ q i+ y; ~! U5 F# d% I7 M - "english": "Rome": s0 d6 p( N; j% e% L
- },
复制代码 " G4 q0 `7 r7 l9 Z' Q1 Q& E
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
' R$ _/ f3 _5 p; L9 a6 ? 然后将 }, 改为 </>, 完成7 [2 ?2 b# `& e
: K- [" |, K( i
3. 例如: 某个词频.xls 表格, 内容如下:
* U0 [" l; N. d6 P. x- 1 the; Y! c$ p4 P$ s$ A3 E6 i$ E! w
- 2 be: v+ _/ ^3 V+ M
- 3 and
: r2 C+ N+ q N" u6 [9 Y2 r9 `) l - 4 of
5 S! {. d8 [) f' z/ Z* b. f/ O - 5 a
复制代码 * d" Y5 r- [5 t+ B; }4 ?& f: e7 F
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>
c8 Q+ M8 L9 Z5 Y; `: ~- S 这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
# X! U5 ?2 [. l" m8 \
2 m6 r6 s7 s: I1 Z+ X0 a% L+ v4. 例如: 某个 基础词汇.doc 文件, 内容如下:
/ B* u. M/ ]3 C c6 D5 j- \5 G- 10. absolutely ['æbsəlu:tli]
) H6 r6 Q! Z. E6 r4 n - adv. 绝对地;完全地;是这样
复制代码
4 Y4 \0 f; Z8 m, [9 f, T 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
# I# b2 C- A( Mabsolutely
4 j/ e. g) J/ p" m4 k3 e<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
% J: E% ]) o$ {8 w) _2 u: D! n</>4 C2 p& Q2 Y% v6 I( e
再制做个对应的 .css, 调整颜色与排版, 完成.
% i& |+ z( p g* B' \! P
6 C0 }" c; j* j5. 例如: 某个词频.pdf 文件, 内容如下:) g8 b8 s) ~4 L, a$ F- L$ ]6 [7 @
- 1152 absolutely r
7 D$ T, Q4 M% v9 s - no, right, • nothing, sure, • necessary, ...
复制代码
q) ], N% K9 x F8 a 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.: Z4 d F5 S, H4 ^
! d* ?% W- f* Y3 j; _+ N
不过有些PDF就不是这么顺利了..- }! U' a! ]; T- d' a) W, o
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|