|
本帖最后由 pda1533 于 2017-2-5 09:59 编辑
9 A* j% @4 ~$ F/ @
' c: x# C* \! |; o; j# O# }2 U之前下的词典,太多了。。。英英的就用其他大神的现成的就可以了,担心的是汉英这块,自己下的汉英字典更多,也比较全面,' U I$ y/ p p2 e+ x5 _7 d: y6 g
& e" s, U' k* M) ?. S3 h; F: u/ d( M大概内容包括以下: 看着都吓死了 。。。。 9 ?! Z8 ~# W/ {9 P
7 P$ c7 w5 \2 r- F6 L! o (本人没有收藏癖,下载的字典这一辈子都不可能把所有词查一遍,但只因工作关系要接触到很多行业,离线状态下输入中文出不来英文就没安全感)" {) X1 M, t. r s/ q+ }1 R" Y
1 u0 j0 b6 B# f5 ~
- h/ w2 ?7 O' N% C$ j! w _# C
4 a# n2 n" G, L! v7 R但是搜索起来字典太多,太麻烦,为什么不能在一个字典里面完成呢?平时当伸手党当惯了,想要自己合并一个,包含所有下载的英汉、汉英的。。。所以本贴记录一下,
7 M% v V& x; J# _- F+ R, y8 d
- A( b* \3 Q2 a) q
+ R; m4 b) B3 m3 x( g2 T! h2 X, X本人完全零经验,不知道怎么弄,随便弄弄吧,不知道会不会成功。。。慢慢弄。。。(请各位大神注意:借用各位的工具时未能完全搞明白怎么用就放弃了,是我不会用,不是工具不好), y( s. G) A* F: n' G$ a+ W
9 M1 ]% ^7 q3 p8 C4 o& _- @/ r9 ]2 { H: c& n6 v
1、先是用MDX export 3.3 把需要的mdx全部解压了2 A2 [, v3 z1 Q& U: l* z8 O
5 i$ H4 C; e4 J+ G4 a
2、了解了一下CSS这东东,知道是设置格式的。自己不会,所以mdd、CSS就算了,不需要,把style.css这些东西全部删除,因为本字典的功能只是需要输入中文有对应英文出来就行了。。。
$ ?& {' z! r8 k% G Q
+ X6 L3 T1 v f0 N+ ]2 |3 q3、解压完了,用Mdict Editor Tool v1.45_exs 合并字典,失败!!!!
. M: F0 s; X2 u% D! \
& [0 u8 d7 P8 Z4 v4 \3 {1 A! U7 C s; \- F- w7 \
4、好吧,Mdict-edit v0.08也用了,不知道怎么用,失败!!!6 w; g1 }. G' q/ ` I' Q
/ [4 N% Q. e/ X* V) Y
2 K( H1 T6 |# B# K: Q3 F5 ~
) _& A. f0 O P" I5、好吧,到论坛找其他工具:如下,累. R* B4 U% n8 D* k1 J* o3 y5 W# q
* [5 w4 i9 M, ^' z0 }
; U5 W, d" A& x F
, {" T. o, |* F% ]) r. Z( k$ n6、不管了,不会弄,直接把第1步的txt合并在一起吧,开始有4.08G,9000多万行,没想到ultraedit居然打开了,这软件太神了(之前用Notepad++居然打不开500多M的txt),删除了一些乱码,现在要小一些了。。。3 W K0 P" K8 A
- j2 N% M; W% W) W" t0 h7 O, y" w+ o. W& p8 }
4 L7 i& V7 M: y+ o F7、现在关心的是去重的问题,合并了那么多字典,肯定有无数的重复的单词,需要保留释义最多的一项,要是批量去重,程序上应该没有方法自动判断。。。怎么去重呢?
5 |" |1 s. n- ?) X7.1 用了第3步的Mdict Editor Tool v1.45_exs 词条去重,提示内存不足,那也就是失败了。
4 U0 \- V. U6 j% L7.2 用ultraedit,不会,失败;
' @0 U$ g' J; d7 `$ X! J$ @: Z5 H7.3 拷到excel里面,提示未加载完全,一看,excel到底也只有100多万行;
" X* b7 ]5 i3 n! u6 |# H7.4 先继续删除合并文件里面的<link***>以及乱码,去重的问题再想想。。。( p- W/ c, w4 v3 @) f% s2 T
7.5 2017.2.4下午把各个解压的txt打开看了,没有乱码,所以合并txt文件出问题了,方法不对,郁闷中。。。) ^. y) m* x+ k" ]
7.6 2017.02.04 郁闷中。。。估计花了几天时间弄的东西又回到开始了。。。。8 \+ J/ V* u [( j. X8 B R
7.7 2017.02.05 因为这些字典本身就包含好几个分类,电力,法律,会计,医学,所以想先按这些分类合并、去重再说。。。这样做至少还是会减少几本字典。。。今天没空,过两天再忙吧。。。; J' b0 l6 X- [' ^- O( i( b
5 |* y. }" y, E
6 E/ u; @; B% S! V5 ~* v2 Q, c' C |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?免费注册
x
|