掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01
    3 G4 P5 ^+ }- i6 b现有的mdx词典,其实足够绝大多数人用一辈子的了
    0 M5 u4 w4 d8 Y( S; `: G8 S+ s4 ^" ?# U% l1 U$ A, O
    本人前段时间制作、收集了不少,经过一段时间的比较 ...
    ( R6 f" s  ]  B6 S1 n2 f' {& @: [
    能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:21
    , \( a/ F* x+ R最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    1 X3 W4 M# V  }默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。5 d- X& O9 ]7 w; U7 l/ }
    其实只是你没有发现而已。# Q3 Z8 n" r8 p4 u( b; C
    ODE: http://www.oxforddictionaries.com/browse/english/
    $ q0 b2 C& F+ `9 W. qRHD:http://dictionary.reference.com/list/a/, _5 O2 S. t" U' w' @% u
    CALD:http://dictionary.cambridge.org/browse/learner-english/: {" B8 E. C* F8 H& t, a
    4 Z+ F7 D, O* \/ [% K
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。3 F+ n( |# E1 A
    以第二个为例:
    6 c4 y) _6 ]' f; }- U4 X) Einurl:browse | inurl:list site:dictionary.reference.com+ c$ J6 J( O. J4 p: u  U

    + I7 [# {8 o3 lPS:最近才发现这里,发现资料很多啊。: S) o- D# U" W5 c
  • TA的每日心情
    开心
    昨天 15:00
  • 签到天数: 1915 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。( J% H/ j0 B) {: B
    在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。& C# L2 {8 F) ?. u
    python其实就是java的脚本代作。。。
    5 @& p( L/ A4 p: M( N7 `# y1 x5 klinux现在核也不是纯是C,都用C++。。。
    0 @1 X2 w* W% _- m( \" T& y所以没有什么最好的,只有适用的。。。
    * h! x; ]- V0 Y抓站如果不用线程或进程之类,在linux上
    3 ]7 \+ I% c8 mshell+sed or shell+awk
    - E9 Q1 D# ?' K/ Z* O  A, cwget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧
    # e8 c) p, C' _8 m% o. H0 p3 u; H8 \2 G' X/ I3 }
    假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改' ?, K5 T$ s% p
    或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下8 _4 q/ W0 x& g2 q: D+ z) y
    结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。. v# l) `) X& ]/ T
    这里有个比较省时省力的小技巧,可以快速定位到想找的地方8 ^6 F% |# F3 r
    1 {$ z, R2 K3 R$ H* |+ R9 g
    1、Goldendict里,在想修改的地方点右键,有个“审查元素”:! r7 O  n8 [! N( o' c+ w
    - ?7 B: C3 z! T* F  f( v8 @: i

    ! D( [$ b4 B( k- e2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事
    6 \9 @7 l* w# P! A4 D5 [; N( W+ _* L1 x' g, g

    1 @9 r8 x$ a$ l% [" Z3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方( z  \3 y8 y8 q% J; ~6 i  ^
    ) T# R8 J2 V" l

    ; [$ L: a6 a5 Q  V+ r+ G收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件7 e( E. {/ H) L9 \, ?8 B
    • EmEditor
    • Beyond compare; o! y& a& l3 Z5 ^. d7 C- F/ Z

    ; x, K! }4 g/ B5 X) ]" H1 @6 ?1 @% Q3 b2 R
    前者用于编辑,后者用于差分比较
    ; y% _, }% L  N9 R; I处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考
      s* Q; ~2 t: e" }( F
    ( h  w6 p+ q( ^" P网页设计中最常用的字体有哪些?(中文和英文)* u( X0 |# z+ |; s
    http://www.zhihu.com/question/196807245 G# s, z/ a! L3 a; f
    * Q8 P4 q1 q4 s
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    ! z3 O4 \6 L! U/ s! ?  j这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全2 [, e& n+ a6 P8 {
    另外Open Sans字体也挺漂亮
    7 |" ?5 k1 r% Z' W

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定
    / P- W# n% W) O" r; G% ?0 a6 A# r0 ]8 W
    1. def uc_to_hc(text):
      0 o- @, H0 |5 P0 S- i' G
    2.     rst = []$ G4 F1 Q' T% G5 H* k( J3 r
    3.     for ch in text:
      . {, c+ ?+ @3 I- i; D) |
    4.         val = ord(ch)
      8 I! l7 V; }/ k; d# e' r
    5.         if val<=0x7F:
      $ f& d+ [/ U1 ~& d% X
    6.             rst.append(ch)8 K8 I3 E+ T: a2 N! j' j
    7.         else:
      1 G1 B& L- V* v' n
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))7 h$ D  g# `9 x9 ]3 M
    9.     return ''.join(rst)) \- y+ O/ l7 ~6 o5 g* J
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序 / ^9 T; Q! y  L) ]
    https://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-4-26 02:50 , Processed in 0.058244 second(s), 4 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表