|
发表于 2016-12-21 22:13:56
|
显示全部楼层
: A: I7 q v1 b9 o" N
个人经验浅谈, 首先只要知道 mdx 源文件的格式是这样就好了.
5 z0 S f- K' }8 N( b/ N( g
( {' K/ c! v5 X4 j词头
- k0 p% a- C( _0 A- K& [释义内容. E4 r/ U/ ^# j* r
</>$ V% W" X4 k& E' t
$ ^3 @" U8 ?; v3 e
### 一、格式良好的文本数据# ?4 Y2 d& e. l. O- A+ [
- Kindle 文字版电子书(mobi、epub)" s( c* R( p5 c8 ^4 N( Z
- 原始的 XML、JSON 等格式的词典数据[有极个别词典光盘,数据就是一个或多个 XML 文件]
* U+ u: w) K; b8 \) m, q- 区分了词头、内容的两列或多列 Excel 表格
( v& _% u5 U8 ~5 ~- 自行整理、总结的各类适合制作为 mdx 的文本
! f) ]! a- G( s. v8 m- 部分文字版 PDF ,这个得看运气了,有的好做,大部分尤其是多栏的、图文混排的很难做
+ p8 a/ T# Q/ c- 其他 / y+ e$ b9 ]/ G' [+ G u8 R9 F
& h+ F- f! p1 d7 [0 g+ c1. 例如: CNET.epub, epub就是一个压缩文件, 解开, 内有两千多个 xhtml文件.4 S3 u1 e( J6 _6 n5 W
使用 emeditor 提取出所有 <body>与</body> 之间的内容,. f& }; y$ i& O; U9 p
用正则将词头整理出来, 再将</body> 改为</>, * i! A( G' V; u7 W
最后用 MdxBuilder, 一个初版mdx词典就完成了.
( e( i# u* A1 u: h; x7 N 再来就是要考虑如何排版与精美呈现.
2 }4 h, t: C' M# `, h4 Y7 v9 J. L3 W7 ?( l4 @7 z: w: ?7 K9 f7 m/ [
" G* n8 V: w, T3 T r# ?2. 例如: 某个JSON格式的词典数据, 内容如:
/ b w. m+ r8 x# p1 Z- "notes": [
. V' f: m; M4 \+ |8 I - "古国名,建国于主前753年,其最盛世时国境东西约九千里,南北约六千里。"- G3 P9 X) q' q# z( i# w' Q
- ],
7 t5 S3 ? z2 t! U+ t8 e - "chinese": "罗马", * U$ i( D6 S. v& M
- "english": "Rome"+ p7 F( B \1 v! p0 Q
- },
复制代码
/ l" K" D' O. o1 | 使用emeditor提取出 "罗马" 和 "Rome" 为中英词头, "notes"底下的自然就是释义内容
# j2 |6 x- I0 j8 n1 b! L& Z 然后将 }, 改为 </>, 完成
* I- _9 M& O6 o" a. N, u4 U( ]
5 Q3 j2 o# ?) J* N8 W3. 例如: 某个词频.xls 表格, 内容如下:9 U5 r" m4 \) e8 J
- 1 the
8 d% x+ F1 h. g; s( q( L" y. E - 2 be: P) s% l% ~5 m6 t) Y! x# U
- 3 and
7 f; Z; N) t6 |, ~0 U0 D, R - 4 of
% [ r' `$ W8 p5 z) _5 {6 h8 ?, O - 5 a
复制代码
4 f# ]% O& Y C% u( m 复制到 emeditor, 找 (^.*?)\t(.*$), 取代为 \2\n\1 \2\n</>3 r% j8 I3 [5 U: \% s; i
这样就完成了一个简单的词频词典, 要精美就要更多数据与排版了8 a5 ^. F4 h! _! E
2 h4 S/ Q6 J2 X: M8 _6 n4. 例如: 某个 基础词汇.doc 文件, 内容如下:* r; s1 C: h: U- d6 k
- 10. absolutely ['æbsəlu:tli] 8 Z. N O. m0 g8 z
- adv. 绝对地;完全地;是这样
复制代码 9 e% c' q, o5 k/ z& Y: O
同样的, 复制到 emeditor, 再用emeditor整理成如下 mdx 格式.* O# \+ ]: _4 F
absolutely
! F+ L5 y/ t2 {9 N<tit>absolutely</tit> ['æbsəlu:tli] <pos>adv.</pos><def> 绝对地;完全地;是这样 </def>
" I- b4 }3 r( I; k# D</>, _7 @7 `8 s4 J. l9 A
再制做个对应的 .css, 调整颜色与排版, 完成.' Z5 N0 z4 t/ }7 G; I4 G! S7 |* `
! h1 _% {% S; o6 w! M9 d5 Q
5. 例如: 某个词频.pdf 文件, 内容如下:3 p" r+ ~" ?7 Z7 ?/ i% U) R
- 1152 absolutely r
5 k. X: x$ W. L; g3 I/ z - no, right, • nothing, sure, • necessary, ...
复制代码 4 T, ^: l3 d: b( v6 r1 ~ k9 |; O
同样的, 复制到 emeditor, 再用emeditor整理, 排版, 完成.+ I5 ^' i2 o2 T' ^+ T
3 F8 m l8 {3 d3 ` J1 u
不过有些PDF就不是这么顺利了..
6 O% Q! |- {% _; Z' H% O! Y5 J |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
评分
-
2
查看全部评分
-
|