掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 4589|回复: 33

[讨论] 兄弟们,我们来做德语词典吧!我来提供一个思路

[复制链接]

该用户从未签到

发表于 2011-3-5 15:25:11 | 显示全部楼层 |阅读模式
本帖最后由 bingbing 于 2011-3-5 22:49 编辑
% c9 n5 W, H1 P- V2 H1 X2 ?3 I: \0 e! v6 O+ t5 X' K5 M
众所周知,MDict上的德语词典比起英语、法语的显得太次了,没有一个看得顺眼、用得顺手的,真是让人痛心。3 z4 x& \# j! T# t% x9 r! }
我在PC上用的是著名的Office-Biliothek,加载了些德德、德英和德法的词典,平时主要用Duden-Oxford的德英英德,使用体验非常好,于是老想着怎么把它搞下来,网上看了些说法,说这个软件用的控件比较特殊,普通的WM_GETTEXT指令对它没用,不才又不谙编程,只能使出最傻的招——按键精灵,呵呵,今天第一次用这个软件,不甚熟练地写了几行代码,用了十几分钟试抓了1000个词条,打包在附件里,请高手们看一下好做不好做。
" V/ `7 z8 G+ P& l这个代码的原理就是一行行地点击词条,然后另存为html文件。Office-Biliothek软件提供了三种另存格式:html、rtf和txt,html比较好,没有乱码,要转MDict估计最为方便,不过最讨厌的是格式跟软件本身显示的不大一样,斜体还是在的,但粗体跟音标就没有了,源码类似下面这样:
" g$ a8 `1 }; N2 v5 \4 k8 ^------------
' B9 _; K! v6 e$ F7 @<TITLE>ab|schinden</TITLE><BODY><h1>ab|schinden</h1>% N- z+ o/ I! m, g8 F7 I
' T) g8 b4 Q+ S$ W* m
<!-- @C%ID=00000765% -->1 q4 ]7 k- t; a
<i>unr. refl. V.</i> sich abschinden: work <i>or</i> (<i>Brit. coll.</i>) flog oneself to9 i& Z% T4 K7 O) ~; w6 d
death; sich mit etw. abschinden: struggle along with sth.
) [2 l7 F5 l; b/ Z/ w# ^<p>
; G+ D, ~; n# y& L" o # Q8 Q. g/ `, k1 o3 v
<p>
* p) S- O+ d. g* v Duden-Oxford - Gro&#223;w&#246;rterbuch Englisch. 2. Aufl. Mannheim 1999. [CD-ROM]. Sat_Wolf, Bayern</BODY></HTML>2 V6 W. O2 _) Y
-------------( @; N; B; i7 q* H: V4 K
* E! O) J3 V! `. T5 L
而rtf格式比较好地保存了格式,也可以显示音标,但是有乱码,有些乱码问题不大,可以用替代的方法改回来,但有些乱码直接显示为问号,这点就比较麻烦了。" `) ~' A, [& r3 q0 t) j
txt就不说了,基本上没用。
, s, A0 s. J* u我在想,最麻烦的方法是html和rtf各存一份,然后把rtf转成html,再跟原来的html比对格式,自动把html版的格式和音标加起来。这些都可以用电脑完成,但是会很费时间,而且编程对我来说也是个挑战,所以目今之计就是做html版,没有音标也无所谓了,粗体不粗体习惯了就好。
% c4 Z: i5 M$ L% Z/ K; t; b# Q下面贴一下我简陋的“按键精灵”代码,我还不知道怎么激活窗口,所以运行前要把Office-Biliothek最大化放在最前再按F10运行:: X1 r0 V0 W' `* {: Q
------------
! _) X( e6 y6 Z- }2 _; ?Var1=1 '抓取条目
2 l7 q7 N3 q& MRem Start2 ^6 c0 C$ j" q
MoveTo 16, 256    '词条图标处6 p3 Y9 s. W1 `
Delay 10
+ z* w; D* J6 @& J7 i6 cLeftClick 1    '点击词条
: z7 F9 d: }2 H7 tDelay 10
3 d1 F9 J: i3 j# V) OMoveTo 781, 101    '另存为处/ V* x/ R9 U- |. |9 C
Delay 10
+ S5 Y. j( o- b8 X8 A5 [" r# {/ |LeftClick 1 '点击另存为
, ^5 k) U, o8 O3 |" NDelay 20
7 M' |- V. k! W. J) ?* CSayString "d:\temp\dict\" '另存为地址
+ l! c% x# f7 |5 eDelay 20
. p0 [0 o, }/ k' X# bSayString Var1 '文件名# m0 h5 E) B8 l
Delay 201 I5 Z3 S2 W) c- {3 X
KeyPress "Enter", 18 c* S; m1 E/ G' ^; l( ?7 K
Delay 206 Y5 Z$ i( Y/ {1 p* @# p) ?9 m
MoveTo 215, 545 '下一词条处
: a9 |' Q# k5 S4 w( }Delay 20
6 m. t* I# k) N3 a8 W6 x; i) ^LeftClick 1 '点击滚动到下一词条5 r& Z$ a! U) v9 \0 U% Z
Delay 20
, B$ b& E* F* vVar1 = Var1 + 1
4 l! u: c* I4 h7 _# L" ^If Var1 < 1000 Then Goto Start '先抓1000试试) G* v$ g2 t* {5 r5 U$ {6 F
-------------
) s2 L/ w( i; U! w) Q# ~$ b4 x/ O) A4 i# w
这样看来,抓完全部词条只是时间问题了,剩下的数据处理理应不难。& _& G0 O# m2 E9 w0 j1 I. j- Z
能人志士们,麻烦帮我看看这些数据能不能用,如果有人可以帮忙处理的话,我今天就把程序发动起来。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?免费注册

x

该用户从未签到

发表于 2011-3-5 23:24:29 | 显示全部楼层
楼主啊楼主!!!按键精灵根本不必花心思去写什么代码啊!!!; q3 s' C. U5 Z
按键精灵有一个在线录制功能,你点击录制,就可以自动录制你鼠标操作,再设置成永久循环就可以不停操作了!!!楼主,快点启动把!!!!我无条件支持你!!!) `9 R* L. j6 n8 L* }5 f7 w% ?
看了你帖子,的确搞不懂该怎么做,但是你有什么纯花时间、“不动脑”的工作,尽快交给我做!!!!

该用户从未签到

 楼主| 发表于 2011-3-6 01:22:01 | 显示全部楼层
按键精灵录制的话效率太低,而且要自定义文件名什么的,直接录制肯定是不行的。3 Q$ Z% s/ {  H: c" H, ~/ V+ |
我发现这个Office-Bibliothek抓个9000多词条再点击另存为就失效了,可能有什么保护机制?今天出去,回来一看,有好几个小时没抓到东西:dizzy:晚上再搞,已经出来27880条了,才到da这里,这个词典规模还挺不错的。
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-3-6 02:09:42 | 显示全部楼层
    望眼欲穿。一定要把德语词典搞上去啊!

    该用户从未签到

    发表于 2011-3-6 09:45:42 | 显示全部楼层
    顶啊,虽然不学德语

    该用户从未签到

     楼主| 发表于 2011-3-7 08:19:39 | 显示全部楼层
    运行了一天多,终于把全部大概15.4万词条抓取出来了,接下来可能没那么快了,呵呵。

    该用户从未签到

    发表于 2011-3-7 19:11:09 | 显示全部楼层
    热情期待!

    该用户从未签到

     楼主| 发表于 2011-3-7 20:28:44 | 显示全部楼层
    需要一个程序员帮助:(

    该用户从未签到

    发表于 2011-3-8 14:56:32 | 显示全部楼层
    我不会啊

    该用户从未签到

     楼主| 发表于 2011-3-8 21:30:56 | 显示全部楼层
    本帖最后由 bingbing 于 2011-3-9 13:22 编辑 0 d. M) K) q" g0 u) M* u

      D+ j9 M' t, |$ t/ o晚上把15多万个文件合并起来,在UltraEdit里简单处理了一下格式,做了个预览版,放在这里给大家用。# T3 ^4 F% N/ D  S: [$ N
    内容基本上是截图里的这个样子,本来想把英语跟德语部分标示出来,可惜我编程能力不行,正则表达式想破脑袋也不知道该怎么写,只好把源文件也放在这里,供高手使用。6 x5 J1 `( h% a
    这个词典有许多条目不同但内容相同的东西,在抓取的时候因为不能抓条目,所以有很多重复的内容,我在UE里已经把重复的删除了,最后大概得到13多万条目,德语8万多,英语5万多。- d( t: j; M* l, l  h# f! B8 f% r& X
    这个预览版我准备先瞎用用,如果够用的话就不再改进了,以后还是让高手来做吧,呵呵。6 P5 c  R/ @* B$ z$ I  h
    % i0 K) I# Q( E. Q
    rayfile站下载[好象我附上链接这个帖子就贴不上?]6 n8 _0 P3 ]8 K& @5 `2 T
    Duden-Oxford DEED
    & Y4 y& K9 x0 y6 S6 HMDX词典4 i# B  e7 S% }- }6 y5 P% r- t7 }
    提取码: fbb0bb80-4982-11e0-af67-0015c55db73d
    - }; @) i, ?' I+ Dtxt文档
    : l' a5 u9 x4 [! C; D" P提取码: 433e774c-4983-11e0-9638-0015c55db73d
    1 a( b3 }7 M! E3 A
    ) H" Y! \! f6 r4 R+ Z! m: V, k9 h' a# s: q

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2011-3-8 22:40:33 | 显示全部楼层
    很nb哦。已经可以用了。很美观。

    该用户从未签到

    发表于 2011-3-8 23:29:32 | 显示全部楼层
    怎么下载呀!

    该用户从未签到

    发表于 2011-3-8 23:33:49 | 显示全部楼层
    哦,我下得来了!
    7 n5 M; h3 T! H: ~兄弟,找这个,这个 sitan  大神啊!他最近人品爆发发了暴多德语词典,还有修正美化的,他最懂了!

    该用户从未签到

     楼主| 发表于 2011-3-9 12:45:05 | 显示全部楼层
    就上rayfile点com,在下面那个“用提取码提取文件”填上提取码。
    / E/ x4 i) D: {3 q0 @8 \- |这个站是把rayfile封了吗?
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-3-9 14:20:13 | 显示全部楼层
    感激不尽!我是用在iphone上,请问里面的css文件也要添加进去吗?

    该用户从未签到

     楼主| 发表于 2011-3-12 21:49:06 | 显示全部楼层
    预告一下,这几天我正在重抓这部词典,想把它做得更加完美些,敬请期待~嘿嘿。
  • TA的每日心情
    开心
    2020-6-12 22:20
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2011-3-12 22:50:47 | 显示全部楼层
    期盼!期盼!向楼主致敬!

    该用户从未签到

    发表于 2011-3-12 23:04:32 | 显示全部楼层
    绝对期待!对了,楼主看看我的帖子啊!!' u9 k% \& h+ ^" b5 U
    就是那个“我有一本超好德语词典......”

    该用户从未签到

     楼主| 发表于 2011-3-13 00:21:04 | 显示全部楼层
    23# agwudismile 那个都编译好了,格式就不好改了吧?
    . _" C3 T# }) |* f6 {而且德汉汉德还有里面的德英绝对跟这个Duden-Oxford不在一个水平线上啊,那词典应急还行,用来学习还是算了……

    该用户从未签到

    发表于 2011-3-13 18:27:13 | 显示全部楼层
    我找到一个文件,里面可能有朗氏德汉双解电子版,但是对德语一窍不通,因此暂时没法破出来。
    - b2 d4 g  Y+ ~+ E( h最近上班特别忙,232681条的《英汉大词典》停滞不前了,对不起大家了。
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-18 06:03 , Processed in 0.027445 second(s), 28 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表