|
发表于 2016-12-21 22:13:56
|
显示全部楼层
+ w; Q4 N3 M% V1 N个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.' Q! A6 M, @5 r$ [2 P5 `* g
( T. r j* [$ U$ \) _
词头2 z2 P& L, ^2 S( ~+ b9 O/ n, t1 ?
释义内容
4 R0 y# n! c9 V2 H6 @! V</>
; ]- Z E ~9 e% |) Z, L0 }6 v# i2 i1 o7 S x9 y/ N6 h
### 一、格式良好的文本数据6 N. h+ u1 X' y0 r; R
- Kindle 文字版电子书(mobi、epub)
+ ?0 [" [! q# B9 {# V- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]- \. o) r$ j9 s2 Y8 Z* F h
- 区分了词头、内容的两列或多列 Excel 表格
& Y6 L0 _' H2 _7 j1 |: a- 自行整理、总结的各类适合制作为 mdx 的文本& W& p/ ]0 B `9 U. W6 {
- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
1 }8 l; b+ O- a- 其他
6 U- a9 g3 ` R- `# z0 j* P+ X# t$ B- Q- j! m
1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.
$ K# a& O/ z( ~3 L6 f+ {+ w 使用 emeditor 提取出所有 <body>与</body> 之间的内容,
& `7 f4 P7 d7 _* j& n% u 用正则将词头整理出来, 再将</body> 改为</>,
" j6 v- |, H! s 最后用 MdxBuilder, 一个初版mdx词典就完成了.+ d+ V4 n' `+ c/ Y5 `
再来就是要考虑如何排版与精美呈现." B, H% ~+ j7 ]/ ?3 g
- u* K4 ^* `) X; j1 [: ]( ?2 Q t
2. 例如: 某个JSON格式的词典数据, 内容如:7 v+ M5 c. b3 j {
- "notes": [2 k! N9 G) l+ W" |: Z
- "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"
+ R8 }0 {/ d6 o( m - ],
1 l% m) F y+ x) J8 J/ \+ y - "chinese": "罗马",
4 j+ }+ [% c( o' K - "english": "Rome"
8 h* @6 m/ [' T - },
复制代码 . d9 ~# C- @$ A! F& k
使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容# r* Q7 _( }, n
然后将 }, 改为 </>, 完成# o+ K* f8 K8 H- Y; ]
& r7 Q7 h' D0 Y g L2 Q3. 例如: 某个词频.xls 表格, 内容如下:& [) a: J% {, U7 \
- 1 the
' y2 z+ v" F8 E& [, j4 s9 h/ X - 2 be
$ b# ~2 p3 u- M5 E) J - 3 and6 c! W2 Z9 ^+ a+ O0 e
- 4 of" [' A" Q9 y) b) A; B6 F
- 5 a
复制代码 s/ e' ?. Y. w4 a
复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>5 `# q3 I6 d6 U4 {
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了
+ G2 X, }, w# N8 v$ o R6 q
6 c8 B2 Y6 g, K% R" l4. 例如: 某个 基础词汇.doc 文件, 内容如下:6 t8 u" f4 _$ n# V- O$ g! u
- 10. absolutely ['æbsəlu:tli] 3 W' ?$ j8 s5 z9 B
- adv. 绝对地;完全地;是这样
复制代码
0 _# K; d( u5 B 同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.
% o5 d3 H7 x+ _' i: _, Z8 t3 e" ^4 {absolutely
4 w! M3 A6 o4 n; \( X<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>4 q& D/ G8 Q: @) p) p
</>3 {( ]6 L4 V7 N' E
再制做个对应的 .css, 调整颜色与排版, 完成.
5 ^: s, t5 Y0 o: @: |7 Q) ^ [: A: G, m4 B7 K: l
5. 例如: 某个词频.pdf 文件, 内容如下:
6 M+ E# n U4 H$ d- u' K- 1152 absolutely r
( F6 n% L& m9 t8 C, p - no, right, • nothing, sure, • necessary, ...
复制代码
& u3 s- e# n z& E3 D5 \* w5 W 同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.( t L7 i1 ]) c1 i1 ^* i' P
0 U1 Z! r% s% b. A2 w2 Q. P 不过有些PDF就不是这么顺利了..
9 b R% X" F+ O8 P, N% m/ E |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|