掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: bt4baidu

[教程] 【史上最全】在线词典抓取、制作技术汇总

    [复制链接]
  • TA的每日心情
    开心
    2018-10-7 22:18
  • 签到天数: 1 天

    [LV.1]初来乍到

    发表于 2014-10-26 00:25:52 | 显示全部楼层
    bt4baidu 发表于 2014-10-25 21:01+ Y1 y+ O% C$ j. C- e) c
    现有的mdx词典,其实足够绝大多数人用一辈子的了$ |  Z3 a4 L( ?4 _8 q9 c; g# J, Y
    5 i: ~9 j- x- L) q: O1 F' s+ n
    本人前段时间制作、收集了不少,经过一段时间的比较 ...
    $ m! A# ^( f! _3 L  e4 _
    能问一下那个VOC是啥词典啊?我好像从来没有见到这种缩写啊!

    该用户从未签到

    发表于 2015-6-23 23:55:09 | 显示全部楼层
    bt4baidu 发表于 2014-10-22 20:210 O" i5 K$ H/ J2 ^+ C2 O# b3 u
    最好带着一个问题,在解决问题的过程中边用边学,比如抓词典;否则泛泛的看书、看资料、做一些不痛不痒 ...

    ( t$ \  q; b* O/ X3 ~7 `, u& ]1 v默默点个赞

    该用户从未签到

    发表于 2015-7-2 11:33:21 | 显示全部楼层
    针对
    IV. 片断索引型网站
    说一下。
    " O. g0 d; P/ }其实只是你没有发现而已。  t  z  z& ^8 h8 A: T
    ODE: http://www.oxforddictionaries.com/browse/english/7 D* I$ e3 C% S4 w
    RHD:http://dictionary.reference.com/list/a/, l+ ^& I3 B9 e) N$ D
    CALD:http://dictionary.cambridge.org/browse/learner-english/
    / W% I) O' t/ D2 v. c/ n" J' g2 l, v) G2 D9 r  A+ A
    如果不想写爬虫来找索引入口,那么就要用好 Google 。答案肯定就在第一页。
    3 ~' H; ^  G0 }以第二个为例:
    ( K/ Z3 H8 z1 O, Q5 o( d# tinurl:browse | inurl:list site:dictionary.reference.com
    2 C# }: F7 ^1 Z) }; k$ d; ?$ M# W0 p" ]# ~# I9 G8 U6 S% P1 p
    PS:最近才发现这里,发现资料很多啊。
    . M, }; G1 q! Y3 H
  • TA的每日心情
    开心
    13 小时前
  • 签到天数: 2259 天

    [LV.Master]伴坛终老

    发表于 2015-7-7 13:05:42 | 显示全部楼层
    只要可以完成任务,用什么语言都可以。。。
    % O9 q  J/ x% b; r在python出来之前是perl是抓站首选。。。它才是为正则而诞生的。。。
    " B( @9 V& ~5 B$ c4 [; V) cpython其实就是java的脚本代作。。。, L6 U* Q/ [( K( B6 G; e/ J
    linux现在核也不是纯是C,都用C++。。。' l# d' D+ E  @
    所以没有什么最好的,只有适用的。。。& O# L; u1 X1 o. m% g; A' R
    抓站如果不用线程或进程之类,在linux上
    & l4 T3 E# M3 M! Sshell+sed or shell+awk$ d3 {* [  H' {" l6 k
    wget or curl都可以通杀一大遍。。。。

    该用户从未签到

    发表于 2015-8-24 10:09:17 | 显示全部楼层
    感谢楼主分享知识和经验。

    该用户从未签到

     楼主| 发表于 2015-9-12 12:17:54 | 显示全部楼层
    排版、修改他人制成品小技巧7 h# c6 L& x+ v: T

    & x; q' U2 I/ m! [( n% J假如下载了别人制作的词典,对其中某一块的配色、缩进等不太满意,想自己动手改改. [2 [2 r9 j2 x- \: v
    或者,看到别人的排版比较舒服,自己制作词典的时候想借鉴一下% W  \& D. c, O; z0 A5 l7 v' y# @
    结果解开mdd,打开css文件,看到上百行密密麻麻的文字还真是有点晕。。。
    ( h) X2 s8 `# v* ~5 ?0 ~这里有个比较省时省力的小技巧,可以快速定位到想找的地方1 P- V) b8 J9 {3 W: I3 ?

    % c1 ?, c- k- L1 M3 M1、Goldendict里,在想修改的地方点右键,有个“审查元素”:
      Y6 d" o" x. j1 Q2 }+ o
    , i3 O, G: a* C* F- C' [9 l4 E5 }! [( i( w* U4 w
    2、点进去会打开webkit浏览器的调试窗口,红框圈起来的地方就是了,想借鉴就直接copy-paste到自己的css里完事7 R3 d3 M; e$ j, P
    3 x4 t$ ]6 ~; v! R
    3 H& i( f" F$ X5 Q# x
    3、修改就用Gettext等工具解开mdd文件,然后打开css改相应的地方5 @( m  p( A: x; m0 K
    ( X8 Y3 s$ A5 C! p4 G
    6 r9 w2 _! i( U8 k/ `
    收工
  • TA的每日心情
    开心
    2020-8-14 17:45
  • 签到天数: 461 天

    [LV.9]以坛为家II

    发表于 2015-9-17 13:37:38 | 显示全部楼层
    原来学习教程在此,得好好研究一下,谢谢你!

    该用户从未签到

     楼主| 发表于 2015-9-20 10:40:37 | 显示全部楼层
    Windows下制作词典必备的文本处理软件# _8 [, o, W; z- @7 M0 y
    • EmEditor
    • Beyond compare
      ' W/ V; {' N1 I, U" a
    ; i' j6 a0 v3 D$ B

    ) L0 j1 |! C6 @' B4 v前者用于编辑,后者用于差分比较
    " ?4 _1 m/ A* a. h处理300Mb以上的超大尺寸文本文件毫无压力,实在是无比强悍

    该用户从未签到

    发表于 2015-9-23 21:54:24 | 显示全部楼层
    The best article ever read on how to get online dictionaries.

    该用户从未签到

     楼主| 发表于 2015-11-3 22:35:33 | 显示全部楼层
    关于字体,请参考; t  M5 ^! J  D1 o" R
    % r0 Y' R& G4 s
    网页设计中最常用的字体有哪些?(中文和英文)1 [3 Q  h; ]+ [( n+ t8 k
    http://www.zhihu.com/question/19680724
    ( J8 {. i8 ?3 n4 C# F& I8 [  A9 k* i  i$ _0 e9 }5 g1 d
    本人用的最多的是Lucida Grande、Helvetica,正文里的斜体字首选Georgia,音标用Lucida Sans Unicode
    " q8 u! [! L" J- S* ]& a这几种字体在Windows、苹果OS上显示效果都不错,字号也比较全  Y, b) _+ t( F1 T1 a
    另外Open Sans字体也挺漂亮
    ( m" g) w5 Y% |6 x4 O  I- m' i- s

    该用户从未签到

     楼主| 发表于 2015-11-9 20:33:50 | 显示全部楼层
    把UNICODE字符转为HTML实体字符,用于处理外来语字母,几行python代码搞定
    ' t: r- v( B* W+ ^2 o( o3 k" Q/ ], y, H, _& ?; |) |+ i
    1. def uc_to_hc(text):/ U9 E  p- @1 I2 ^# l. T
    2.     rst = []- n* Y* o/ v# h! t0 z* u7 P$ M
    3.     for ch in text:
      " {7 n& Z; s3 {! U6 V
    4.         val = ord(ch)
      ' w) |0 o9 f% B- ~
    5.         if val<=0x7F:; d' h7 R; E" f% ^# t
    6.             rst.append(ch). d& O& b5 ~8 N3 D$ F
    7.         else:+ U6 ]& t# y' S  ]: ?
    8.             rst.append('{0}{1:0>4X}{2}'.format('&#x', val, ';'))
      - B% @- I2 }4 @( r& m$ v+ R
    9.     return ''.join(rst)0 \0 }* i6 ]' c4 F8 _2 y
    复制代码

    该用户从未签到

     楼主| 发表于 2015-11-14 18:19:54 | 显示全部楼层
    【索引】 图片降噪点/切除白边/去背景(透明化)/分割程序 4 A9 E0 u) ~- G1 q% P1 `
    https://www.pdawiki.com/forum/thread-14681-1-1.html

    该用户从未签到

    发表于 2015-11-17 12:33:59 来自手机 | 显示全部楼层
    谢谢楼主  正想学呢

    该用户从未签到

    发表于 2015-12-1 10:50:38 | 显示全部楼层
    非常感谢楼主的分享!支持...

    该用户从未签到

    发表于 2015-12-6 23:40:44 | 显示全部楼层
    感谢楼主分享,学习了,长了很多姿势。。。

    该用户从未签到

    发表于 2015-12-27 06:20:40 | 显示全部楼层
    感谢楼主分享知识和智慧。
  • TA的每日心情
    开心
    2020-9-30 00:26
  • 签到天数: 17 天

    [LV.4]偶尔看看III

    发表于 2016-1-19 19:37:17 | 显示全部楼层
    好棒的教程!!!!!

    该用户从未签到

    发表于 2016-1-29 17:47:04 | 显示全部楼层
    好教程,慢慢看看。
  • TA的每日心情
    慵懒
    2023-8-4 12:07
  • 签到天数: 732 天

    [LV.9]以坛为家II

    发表于 2016-3-12 19:53:26 | 显示全部楼层
    学习了!谢谢
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-21 21:09 , Processed in 0.022330 second(s), 16 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表