掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sqihuan

[词典讨论] 朗文当代高阶英语词典 6版

[复制链接]

该用户从未签到

发表于 2014-7-28 20:57:55 | 显示全部楼层
朗文销量不逊于牛津吧,可能还要更大一点,为何要退出?

该用户从未签到

发表于 2014-7-30 12:50:26 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:04 & f: M  W% |, @8 f% ?& z+ a( Y
成本的問題,所以朗文不出了。至於5年後朗文7的前景,也不樂觀。

* {1 q  `( P. q7 u主力編輯已離開團隊, 所以朗文7的質素能否維持一來以往的水準, 甚或再有大更新,則未知了。希望不會好像 collins 那樣每況愈下就好了。

该用户从未签到

发表于 2014-7-30 12:52:45 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:07 / |* F  R6 o* ?) x; B
對文科生來說,學編程是很痛苦的。我猜你們現在弄編程的,大部份專業也是計算機。
8 i  w* h' ?6 D* W8 p! U+ ]
不清楚國內的教育情況。不過我很欣賞搞編程的人,能開發實用的程序,方便大眾,改善生活,增加工作效率。

该用户从未签到

发表于 2014-7-31 21:14:33 | 显示全部楼层
看着真心眼馋。。。有种把数据抓下来的冲动。。。{:5_199:}
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-31 21:43:07 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 $ O$ F$ Q0 d; k% ?- m; X
    看着真心眼馋。。。有种把数据抓下来的冲动。。。

    8 Y  Y* K! X2 ?1 }# @  H  }0 `哈哈,支持支持$ r6 @8 ]- l4 d9 ^
    如果抓到数据了能否分析下和5th的具体差别?

    该用户从未签到

     楼主| 发表于 2014-7-31 22:26:10 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    6 y" q; c; d; a, [+ x看着真心眼馋。。。有种把数据抓下来的冲动。。。
    9 f, V! k% V$ T+ p& m
    支持支持。大力支持大大。网络爬虫真的不会。。。。哎 只能伸手党了!

    该用户从未签到

    发表于 2014-7-31 22:35:54 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    # s1 l8 i2 q( U" ^看着真心眼馋。。。有种把数据抓下来的冲动。。。
    , N' ]3 P7 d3 K6 K* N* X2 D5 |
    = =装了python环境,还是不懂怎么抓

    该用户从未签到

    发表于 2014-8-3 09:25:37 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 ! m, @! r( y% ~7 J' m
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    9 w( M4 _  _$ j) t' v$ b
    除了朗文6之外, 在去年還出了一個 collocations dictionary) D  L7 |5 J; _# c- W4 u: b
    此本字典同樣沒有光碟版, 只提供網上搜索。
    . `3 d# c; f- v. C/ x0 X
    : ~  b0 ]: F  K, k不過能抓下來, 同樣是功德無量了。

    点评

    http://pdawiki.com/forum/thread-10783-1-1.html  发表于 2014-8-3 14:01

    该用户从未签到

    发表于 2014-8-3 18:51:18 | 显示全部楼层
    謝謝O大你提醒我啊!! 難怪腦海中一直覺得在掌上百科有 collocations 字典..但一直想不起來..) B9 G. f+ Y. Q- ?5 b6 q
    Hugh大 真的了不起! 感謝!!!

    该用户从未签到

    发表于 2014-8-9 21:24:23 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    7 @7 u2 P1 p7 Q; D看着真心眼馋。。。有种把数据抓下来的冲动。。。
    . i' t- [/ `5 c; W4 y( s8 R. t
    稍微研究一下网站构造,朗文真是堪称环保的典范
    - Q( _$ T* ?  ]% G0 {! I* x3 c0 q查词的时候居然只返回词条内容那一小块HTML,一丁点垃圾代码都没有,甚至连一个多余的空格都没有,太赞勒; ^; w( U% [' a' W' b  A
    这也意味着跑一遍单词表,把得到的数据用</>分隔一下,直接就是成品了0 B3 H4 _& m/ X8 d
    5 ?" u1 _) v4 |) Y0 ]
    不用抠数据,不用编辑,不用格式化,一切就是这么简单

    点评

    没那么简单,不信你试试。o(∩_∩)o  发表于 2014-8-9 21:31

    该用户从未签到

    发表于 2014-8-9 21:53:47 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-8-9 22:00 编辑
    $ C: W1 F7 L- T9 p" ]+ @  a7 b. h' A
    $ z, p* Q) t2 g* Y0 a6 r6 @; N看来O大已经动手了,卡在哪个环节,有啥困难说说看{:5_217:}
    ; {' T/ f* j( ?. m
    6 M- |5 O. h/ n% d5 J( f0 L登录型网站建议用requests库,它支持session,自动支持cookies,而且内部有个用urllib3实现的HTTP连接池,相当于像蚂蝗一样叮上就不松口,效率非常高" I- Y0 h. s$ n/ I! N- C
    Longman比较特别的是大量用FORM POST,不像一般网站都是GET
    $ C- ]) P$ k4 o0 K$ H
    ) t6 \7 G* k' i; {) R8 W6 m
    没那么简单,不信你试试。o(∩_∩)o  

    8 M, c0 d, G5 i! X; O4 y& U7 s5 r. L2 o4 G
    不要教唆我干坏事。。。( i7 _2 B4 t4 x% q0 D

    $ ^/ X7 s; H/ X( z, n我试了一个词条,原始HTML,原始CSS,未作任何编辑改动就已经达到如此效果:/ `* M. X+ ~# @* F1 r8 A: |
    0 @) I# Z+ @' K* E$ N1 ~8 y8 n

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-8-9 21:59:53 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    ) O4 D: V! h5 F, J7 x看来O大已经动手了,卡在哪个环节,有啥困难说说看
    8 Q" x1 Q- i& ^+ ~  [8 o+ {  m3 k" Q2 v# h
    登录型网站建议用requests库,它支持sessi ...
    3 x+ s' O3 f3 p/ ]/ b! q
    {:5_227:} 4 @" W! F5 s, f7 |, x' t6 ^

    6 J+ K- y) @& m% E- `卡在了第一步,对学习型词典无爱。2 @1 g2 m3 @- Y+ `9 X/ t

    7 b: P7 M4 l* `/ d' B$ Y2 u我只是大概觉得要获取完整的Headword List似乎不那么容易。/ A, O$ }# S8 f' s0 @; G3 V

    2 B) Z( |. u2 @1 G

    该用户从未签到

    发表于 2014-8-9 22:05:15 | 显示全部楼层
    Oeasy 发表于 2014-8-9 21:59 - k0 C; n. R' n- }9 D3 U) g
    卡在了第一步,对学习型词典无爱。4 O4 |% K3 q8 u& U
    * V: t6 P; O' v& W7 B
    我只是大概觉得要获取完整的Headword List似乎不那么 ...
    4 @8 {5 k8 c: d4 u* ^  c8 l
    http://global.longmandictionarie ... key/ldoce6/%key%/1/" J# Q; l/ S5 N, t& ^* I+ A
    ( E1 i/ O+ A5 M% a6 F* v. h
    每跑一次返回一个HTML片断,用这个正则即可搞到查询用key;用该片断的最后一个key和拼进上面的url即可获得下一片断,循环下去直到最后一个单词‘zzz’返回空<ul></ul>,结束。
    1. <li><a\s+data-alphakey="([^"]+)"\s*data-key="([^"]+)">
    复制代码

    该用户从未签到

    发表于 2014-8-9 22:12:17 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 22:05 5 C) }' R+ q/ I( O: j
    http://global.longmandictionaries.com/dict_search/get_entry_chunk_for_alpha_key/ldoce6/%key%/1/
    # a% L/ J3 f" J' q9 h  I1 g
    3 h& F$ B$ E8 ~+ m- D6 _4 M ...

    % P  a7 f2 S; e0 y" C6 E{:5_227:}
    6 {% E/ C, r* S0 k5 p- S会者不难,想学就会。# B6 G; ?9 ^& u! G( F# B, _
    不过,累觉不爱。

    该用户从未签到

    发表于 2014-8-9 22:19:13 | 显示全部楼层
    {:5_217:}4 m; D# |$ n! S. o) G) E

    1 g( _/ _# O: @1 }0 O本人同样只研究代码,不抓数据,不做词典;对该词典感兴趣的同学可照此思路继续下去;打算做伸手党的就别等了,三五年之后或许有人会放出来4 G& I& {" u" _: {  }/ p5 ^3 k' L/ ^
    累觉不爱~~~{:10_293:}

    该用户从未签到

    发表于 2014-8-10 17:21:02 | 显示全部楼层
    唯有等Hugh大哥做吧.. 我相信Hugh大哥這個朗文控是不會放棄朗文6的~~
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:52:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-24 12:29 ' A1 T0 x$ R4 A4 n5 ]. Y
    模拟登录不难,百度一大堆现成的代码,拷过来直接能用
    3 g& j" X1 {: q2 z( w4 Wsession建起来就可以拿个大号针管抽血了
    * l- r, }/ r6 u' H0 N+ x ...

    ' E- _  \1 {- h1 {: s' I% T& ?其实我抓取网页要不是用httrack(线程难控制)或teleport(数量限制).( I+ M( m' @* |5 D: M7 R
    就是自己编一个C程序,system()curl下载,用正则表达式过滤链接(可惜Java或js难处理),curl可以post网页(有一个查询网页就是要post才能下),自定义heads,cookies.啥事都搞定.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:59:35 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    9 A1 Q* ^; V; l  R9 ^看来O大已经动手了,卡在哪个环节,有啥困难说说看
    0 y9 L* y6 p  ?; A1 ]( `/ u
    ; z- V- I' A  C% i; D! x登录型网站建议用requests库,它支持sessi ...

    # ^& k! k, z# s3 k" l  Frequests库有没有C/C++ API?想试试看,libcurl参数多到我头晕,所以只能system()curl来下,不过好像速度有点慢(单线程)...
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:05:30 | 显示全部楼层
    我先用HttpAnalyzerStdV7抓GET和POST了
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:07:00 | 显示全部楼层
    我勒个去HttpAnalyzerStdV7崩溃还是用Wireshark吧
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:20:58 | 显示全部楼层
    我的天呀,全是POST.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:00 | 显示全部楼层
    POST /dict_search/get_entry_chunk_for_alpha_key/ldoce6/abdicate/0/ HTTP/1.1
    & {% g' x- Q( O2 THost: global.longmandictionaries.com% K$ j. S. @# b+ }- a- P
    Connection: keep-alive
    2 R) X$ M0 f& g& [( W' lContent-Length: 0
    " {  a1 o% \" T+ W! JAccept: text/html, */*; q=0.012 d8 O* y+ N5 x5 ^) r
    Origin: http://global.longmandictionaries.com
    - P. ~, A* u7 \X-Requested-With: XMLHttpRequest
    7 G* P0 I! b! d3 s& [User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    5 K$ i; m% j( _+ W/ X, Y: Z  M: Y( wContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    ' v4 T; I- i/ ~( |8 ^6 eReferer: http://global.longmandictionaries.com/ldoce6/dictionary
    3 W: e4 ^; Q1 B3 y' rAccept-Encoding: gzip,deflate,sdch
    5 f/ T; X/ d* _Accept-Language: zh-CN,zh;q=0.8
    9 J3 l! |, I8 m1 p1 f2 nCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:53 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-9-7 09:24 编辑
    8 x& E7 Z' v6 ?" E/ w( {( q5 n6 @6 f: z
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    + z& w9 O' K! n& P+ y  x6 OHost: global.longmandictionaries.com
    $ B+ U8 ~0 {. a6 ^Connection: keep-alive0 _8 B; E) T' W$ Q/ f9 m
    Content-Length: 23
    : `( H' U% k: u' {( h- ^% iAccept: */*) J- ^" i  ]/ _: ^$ a
    Origin: http://global.longmandictionaries.com
    " F8 b( Z$ }7 u4 f, [+ hX-Requested-With: XMLHttpRequest
    3 D9 C3 ~. p; P1 m+ p* }3 m, MUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    & i/ O) I% \0 }  Y4 |+ u& hContent-Type: application/x-www-form-urlencoded; charset=UTF-8# v; M. |. w6 Q  w/ I% \5 X
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    7 j; w: @* }: A9 P0 l. fAccept-Encoding: gzip,deflate,sdch& A3 ?# S5 D$ q. j1 J& F6 z
    Accept-Language: zh-CN,zh;q=0.81 ]' ?2 q% C' P5 z' t& }
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    * H% U, S# T. I. `9 calpha_key=a_amp_w&name=
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:28:19 | 显示全部楼层
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1: L# J1 b$ D7 ]% [- @. ~
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1( d8 s% Q' \  j4 E( e% d( j: ^
    GET /res/audio/hwd/ame/2/abandon1.mp3 HTTP/1.1  ~! |! C8 y& f: [( B6 `, x* J
    GET /res/audio/hwd/bre/7/abandon_v0205.mp3 HTTP/1.1% _" [0 S! q4 f; j2 u" o
    终于有GET了,不过好像有点坑ame/2/abandon1.mp3和bre/7/abandon_v0205.mp3是什么规律
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:34:21 | 显示全部楼层
    abandon1,2实例:' P) d5 _+ M/ U& p) C
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    0 v* J9 H* s5 O2 iHost: global.longmandictionaries.com) y$ M+ p" M1 \+ \
    Connection: keep-alive" H! v9 ]( Y, W3 D
    Content-Length: 25) \2 j8 z2 _' \: E5 B9 z
    Accept: */*0 c7 K; O/ W; u: h% }3 G
    Origin: http://global.longmandictionaries.com; X% o5 l' O, G, j) C) Y+ Y
    X-Requested-With: XMLHttpRequest2 ]/ [' A' H$ E% w
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.05 D7 x$ u+ w# b( G% h
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8" {) d1 W% ~9 \* @7 \" H
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    & [- n& N$ M4 _  v  l2 w" X* u+ @. LAccept-Encoding: gzip,deflate,sdch
    0 h! d+ D5 o) @% V- s8 g2 n# N: ^Accept-Language: zh-CN,zh;q=0.8# I3 H" I# R5 ^
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......1 o1 {8 V( ~$ Y$ V3 J( H" a) T
    alpha_key=abandon_1&name=( q/ x) C: T( f6 y, Y4 f

    - t2 z4 r0 ^1 }  s7 N- N) h) R$ c: ^
    POST /dict_search/other_words/ldoce6/ HTTP/1.1: S' M3 _! G; F8 c$ B
    Host: global.longmandictionaries.com8 F+ `, I' W8 _& F
    Connection: keep-alive) `! }" X! o& d* c' {
    Content-Length: 19) k6 A3 R( \! ]( v. I
    Accept: text/html, */*; q=0.01
    + t$ h: A# w; `9 H; I( eOrigin: http://global.longmandictionaries.com
    # R9 r% T. X4 X+ Z% h5 d! I( IX-Requested-With: XMLHttpRequest
    . w7 A7 V4 y2 W' }* I) `, p8 M# TUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0  w& i, U3 f. h. |
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8
    : w3 U3 S) v9 I2 S8 M3 wReferer: http://global.longmandictionaries.com/ldoce6/dictionary
    $ T6 J* Y, z6 z) L* ]1 G# O6 }  mAccept-Encoding: gzip,deflate,sdch
    8 D4 |5 U" i7 T* V, s6 nAccept-Language: zh-CN,zh;q=0.8
    6 m: q/ ^+ l) e6 wCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    7 m( n& n. {: F7 j! z4 K) ~- p8 A, hentry_key=abandon_1
    4 ~( |! R3 S) {6 ]$ N" H0 Z* ]5 A7 j# N3 {' d' c, V

    - D7 E% }, l1 G1 mPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    ( F5 N# S' @0 H; D8 n; sHost: global.longmandictionaries.com
      o# C/ N* p6 ZConnection: keep-alive0 C/ G, \4 [" W# G
    Content-Length: 25; ~1 n8 }1 f4 Q1 B
    Accept: */*/ z( u. g1 @% ^' X6 n
    Origin: http://global.longmandictionaries.com" c# E$ O+ P) Y
    X-Requested-With: XMLHttpRequest
    , R" G* j% C; u1 i: N. \4 t1 U3 o, NUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    5 O2 Z9 E2 E* `  }Content-Type: application/x-www-form-urlencoded; charset=UTF-8! g1 ]1 P/ P: m  @
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary' l6 ^& o& M+ _  o; _* ?5 h( z: M
    Accept-Encoding: gzip,deflate,sdch
    ! |3 V: U- h6 ]$ eAccept-Language: zh-CN,zh;q=0.8$ s% Y, y9 A# n5 ?2 E
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......3 |7 `4 u9 Q& K2 H5 x( g
    alpha_key=abandon_2&name=" S/ d2 y- E# W' W2 {$ @! p

    4 m3 W8 g" M/ ~% l8 |
    8 u8 ?# c* m$ a) W9 j$ t* I$ jPOST /dict_search/other_words/ldoce6/ HTTP/1.1) ~' G# m3 ?. {! b" ?6 t
    Host: global.longmandictionaries.com* R' z+ m$ \- C) R
    Connection: keep-alive
    - u1 r0 B% P4 \& T" E* \6 X, KContent-Length: 199 }, a& T: g! t. m. D0 r5 D6 l
    Accept: text/html, */*; q=0.01
    0 D" Y# [. i$ EOrigin: http://global.longmandictionaries.com
    # Q2 b4 I8 z, BX-Requested-With: XMLHttpRequest: j- l( }4 s7 o
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    8 O- N, \( C1 ?Content-Type: application/x-www-form-urlencoded; charset=UTF-8
    7 Z/ k0 j6 C4 }# |Referer: http://global.longmandictionaries.com/ldoce6/dictionary# p& n  l4 R8 C; g" h
    Accept-Encoding: gzip,deflate,sdch
    ' s% T5 }3 ], W8 YAccept-Language: zh-CN,zh;q=0.8
    ) Y8 R5 w) y. G8 ]" B2 nCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......1 H, b6 _$ F3 n' i0 ?
    entry_key=abandon_20 U( X- y4 o8 R; G' U

    3 n" d, H  `8 M2 L# |4 c7 ]  H7 k3 ^) Y% C! E: g# r) I7 S
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.11 I- g1 @6 u& x5 Z
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    $ e7 @! r+ ^: A( ^GET /popup/supp/ldoce6/collocations/abandon_2 HTTP/1.1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-5-16 19:35 , Processed in 0.077774 second(s), 10 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表