掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01  |: \1 q4 i3 J6 `: b
    现有的mdx词典,其实足够绝大多数人用一辈子的了8 t; q5 z+ `: h9 U/ N3 Z: v
    : O1 N0 T& _$ w- C
    本人前段时间制作、收集了不少,经过一段时间的比较 ...

    . u0 O% R  x! l; {# k& K能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21' V6 S5 f, c6 p; m: Q
    最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    # d) a0 m8 V7 s5 X8 t( M, V默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。! t8 T% R( w9 O' V
    其实只是你没有发现而已。9 e% {! L. E! @9 V5 s
    ODE: http://www.oxforddictionaries.com/browse/english/
    3 l& L% C/ |  @2 ]$ q3 k" R1 @RHD:http://dictionary.reference.com/list/a/
    / ^' }/ M8 `1 \CALD:http://dictionary.cambridge.org/browse/learner-english/
    / X' M, r! {4 k# I# z) d8 ?# ~" [
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    ) |/ A8 _9 q! a8 x8 M以第二个为例:& q: A( R: q8 c  {( J* f6 K8 m6 f
    inurl:browse | inurl:list site:dictionary.reference.com
    1 s5 B1 J$ `( U; V. m$ \9 b1 P- Q! j) A
    PS:最近才发现这里,发现资料很多啊。: ]- n6 I9 H7 p0 P) ?6 [# T
  • TA的每日心情
    开心
    昨天 08:00
  • 签到天数: 2278 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。& ?/ N& m  @* A  x% S
    在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    ' N5 B" @  U4 X! m/ |! A! f9 u' opython其实就是java的脚本代作。。。8 }( W% `7 U7 ?0 h) y! C4 X2 L
    linux现在核也不是纯是C,都用C++。。。
    ! f) F+ s/ F( C% G: g2 g! K所以没有什么最好的,只有适用的。。。- S1 D. l2 s% d7 W, ~, X
    抓站如果不用线程或进程之类,在linux上$ r6 W% O9 W+ ?( D3 M7 q- a( \% g
    shell+sed or shell+awk
    0 h5 |. V0 |7 bwget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧) C- O& t9 H$ D6 R9 E
      O8 g$ y. q- u5 p
    假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改/ u" c) w7 k6 \* b1 [: c  p
    或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下
    * b/ M) _) J/ k& g2 |3 f$ z结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。
    : f$ V$ P. l5 \( K1 U这里有个比较省时省力的小技巧,可以快速定位到想找的地方
    ! z8 b" u  F  c& `2 w# F# B4 q4 ~
    1、Goldendict里,在想修改的地方点右键,有个“审查元素”:' J5 v+ d8 K! j' [) {0 U* e

    8 Y) d/ {0 }" K7 Q6 l3 C5 z7 L6 z
    2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事* }, Y& L* j  H4 z& B
    0 Y* j( ^5 b& p9 q4 ~& z
    3 X5 @: k/ {  u3 Q6 u( p& X: y
    3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方4 }# T( n' P  {! s3 x# R+ u

    : u; e3 Y4 i9 i/ F* j* p, V/ c4 `" E1 U* c
    收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件! R5 F$ K1 O) z8 N/ z
    • EmEditor
    • Beyond compare! g* n1 I% a) M3 B  R

    # j  y' o, K4 }( I4 P$ O& A1 P& C' Y
    前者用于编辑,后者用于差分比较
    6 Z# ]( d2 ^1 f) b& I3 |处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考
    4 r6 R. B: ]+ v0 @( {, V! A) I8 a/ |5 q6 u/ J
    网页设计中最常用的字体有哪些?(中文和英文)
    4 F. P/ f" ]. r0 W! Fhttp://www.zhihu.com/question/19680724
      V" w2 M6 l' y
    $ @5 J. G0 @6 B) T本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    4 }  |& o6 b* V  Z) h这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全' {/ [) X) p% u+ S
    另外Open Sans字体也挺漂亮1 d; I8 [% ^8 c$ B# e

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定 4 i, H3 W7 H# [: D" O5 J
    & u3 h6 B$ I/ J5 J. o* F
    1. def uc_to_hc(text):+ y% ~% Q- S7 \( E+ i$ F  g3 h; n
    2.     rst = []
      , _) ?; r. }8 D- ^) |; W+ A/ l' ^! g
    3.     for ch in text:& u6 R" S$ b  x' Y( g
    4.         val = ord(ch)
      % g. v7 y6 ]' F
    5.         if val<=0x7F:
      % t5 j' }8 c, s2 Y( B' d
    6.             rst.append(ch)
      4 F5 g( ]; `4 V; ?4 _; \; N
    7.         else:
      / L& E3 o8 V2 V7 D7 \: _+ i# r
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))0 s$ F4 O9 g( m
    9.     return ''.join(rst)/ G7 m8 r: Y( e1 u. O
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序 3 L. f* q+ F7 r2 @" L! M! L, \
    https://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-5-12 07:45 , Processed in 0.022520 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表