掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sqihuan

[词典讨论] 朗文当代高阶英语词典 6版

[复制链接]

该用户从未签到

发表于 2014-7-28 20:57:55 | 显示全部楼层
朗文销量不逊于牛津吧,可能还要更大一点,为何要退出?

该用户从未签到

发表于 2014-7-30 12:50:26 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:04 # m7 P6 J' x0 T+ \9 z! ^
成本的問題,所以朗文不出了。至於5年後朗文7的前景,也不樂觀。

# l" h% ]; A$ H% i主力編輯已離開團隊, 所以朗文7的質素能否維持一來以往的水準, 甚或再有大更新,則未知了。希望不會好像 collins 那樣每況愈下就好了。

该用户从未签到

发表于 2014-7-30 12:52:45 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:07 5 k/ L- B6 Q( @
對文科生來說,學編程是很痛苦的。我猜你們現在弄編程的,大部份專業也是計算機。

! O3 z6 ^; K, G  Z不清楚國內的教育情況。不過我很欣賞搞編程的人,能開發實用的程序,方便大眾,改善生活,增加工作效率。

该用户从未签到

发表于 2014-7-31 21:14:33 | 显示全部楼层
看着真心眼馋。。。有种把数据抓下来的冲动。。。{:5_199:}
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-31 21:43:07 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    , {7 v* d- v1 C看着真心眼馋。。。有种把数据抓下来的冲动。。。

    - O& H2 F! g6 @. w2 h哈哈,支持支持
    - R/ R) k* l- E" u9 w% Z如果抓到数据了能否分析下和5th的具体差别?

    该用户从未签到

     楼主| 发表于 2014-7-31 22:26:10 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
      w! C& W- P4 T0 z5 w4 [4 {看着真心眼馋。。。有种把数据抓下来的冲动。。。

    ( n9 j6 ~) U4 k支持支持。大力支持大大。网络爬虫真的不会。。。。哎 只能伸手党了!

    该用户从未签到

    发表于 2014-7-31 22:35:54 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    8 F+ w6 E1 k3 n7 [% G, z( h3 O( o看着真心眼馋。。。有种把数据抓下来的冲动。。。
    3 D( }8 x! d+ {4 t. S3 Q- p" ?$ H
    = =装了python环境,还是不懂怎么抓

    该用户从未签到

    发表于 2014-8-3 09:25:37 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
    , x4 p. x# [5 j; Q: g看着真心眼馋。。。有种把数据抓下来的冲动。。。
    . N: u. I- G* Z5 S* q6 {
    除了朗文6之外, 在去年還出了一個 collocations dictionary
    0 h: t3 i4 N. r! z8 ?% }此本字典同樣沒有光碟版, 只提供網上搜索。
    ! A) s8 u6 v% f% z2 m4 {0 D2 L5 C0 G6 J3 }- e
    不過能抓下來, 同樣是功德無量了。

    点评

    http://pdawiki.com/forum/thread-10783-1-1.html  发表于 2014-8-3 14:01

    该用户从未签到

    发表于 2014-8-3 18:51:18 | 显示全部楼层
    謝謝O大你提醒我啊!! 難怪腦海中一直覺得在掌上百科有 collocations 字典..但一直想不起來..! T2 A2 y( ]- ^7 }1 q( b
    Hugh大 真的了不起! 感謝!!!

    该用户从未签到

    发表于 2014-8-9 21:24:23 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 # N( q1 H$ L9 y. \4 S* F
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    % k% T% n; y, P8 Z5 B& K
    稍微研究一下网站构造,朗文真是堪称环保的典范
    " m. x4 A* \; D, {查词的时候居然只返回词条内容那一小块HTML,一丁点垃圾代码都没有,甚至连一个多余的空格都没有,太赞勒
    # }) W" }2 J- C' f这也意味着跑一遍单词表,把得到的数据用</>分隔一下,直接就是成品了9 O% Q! k6 r6 M% U+ ^" N
    8 D6 b! w3 \. t7 ?7 b5 ^
    不用抠数据,不用编辑,不用格式化,一切就是这么简单

    点评

    没那么简单,不信你试试。o(∩_∩)o  发表于 2014-8-9 21:31

    该用户从未签到

    发表于 2014-8-9 21:53:47 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-8-9 22:00 编辑
    4 e) H% \+ U$ u7 ^1 T! r5 @- q
    看来O大已经动手了,卡在哪个环节,有啥困难说说看{:5_217:} ! I; h. T. g' T7 q
    8 S0 @/ X, z' v; Z. }; L1 i7 \
    登录型网站建议用requests库,它支持session,自动支持cookies,而且内部有个用urllib3实现的HTTP连接池,相当于像蚂蝗一样叮上就不松口,效率非常高& h4 t& A7 {. {/ D, Q" [
    Longman比较特别的是大量用FORM POST,不像一般网站都是GET  p. `9 B/ w* r% H
    . f% l& M' h! X/ X- ~
    没那么简单,不信你试试。o(∩_∩)o  
    / ]( W) ~  J) ^! K0 ?3 P3 X

    ! R* ~8 C# P* T+ f% ^  K不要教唆我干坏事。。。
    4 g. Q. S  I6 F6 p& l. m
    $ N* C: N. w3 a/ j5 C我试了一个词条,原始HTML,原始CSS,未作任何编辑改动就已经达到如此效果:
    ) X2 w9 D, y) k
    * ^  c% N, x* O( W- e

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-8-9 21:59:53 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    2 t: j) n! O# W看来O大已经动手了,卡在哪个环节,有啥困难说说看 ; O; X  H! J) D7 H3 K
    6 c+ |" Q; Z. {3 k9 L. B
    登录型网站建议用requests库,它支持sessi ...

    " x9 W9 k1 c# q" r& E0 [/ D{:5_227:} ' W9 P' r0 z  ]3 U2 T

    : P# M4 S; \. Z! {# L卡在了第一步,对学习型词典无爱。
    ! c+ O! V- K6 d# |* x9 b. G  s0 o9 l5 I1 v" R
    我只是大概觉得要获取完整的Headword List似乎不那么容易。
    5 L" e- b. }: s* V% _  M" i& e3 @

    该用户从未签到

    发表于 2014-8-9 22:05:15 | 显示全部楼层
    Oeasy 发表于 2014-8-9 21:59
    ; s. {+ i- Q* k% P' g卡在了第一步,对学习型词典无爱。: P# f: M# P; h9 l0 `  }9 v9 q
    ! E  q: V$ l. {1 Q
    我只是大概觉得要获取完整的Headword List似乎不那么 ...

    ) F' z: a, G! O6 g! z- @" Z6 Hhttp://global.longmandictionarie ... key/ldoce6/%key%/1/
    7 G9 Q, ]- b: x1 {7 ^( `( z
    ) S: Q$ w7 @; e9 u, `/ b: S每跑一次返回一个HTML片断,用这个正则即可搞到查询用key;用该片断的最后一个key和拼进上面的url即可获得下一片断,循环下去直到最后一个单词‘zzz’返回空<ul></ul>,结束。
    1. <li><a\s+data-alphakey="([^"]+)"\s*data-key="([^"]+)">
    复制代码

    该用户从未签到

    发表于 2014-8-9 22:12:17 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 22:05 * J( o/ F4 l2 X
    http://global.longmandictionaries.com/dict_search/get_entry_chunk_for_alpha_key/ldoce6/%key%/1/
    : _" a' W& @4 w  u. |
    , c) P2 |" w" ]: ~$ s% T ...

    # \" E4 n& u! F$ x/ e{:5_227:}5 c& i5 m" |7 ~7 Y2 O1 ~
    会者不难,想学就会。
    3 r* r3 D  l; \不过,累觉不爱。

    该用户从未签到

    发表于 2014-8-9 22:19:13 | 显示全部楼层
    {:5_217:}7 f! j. H6 Z, M! S- p9 i. Z

    4 I8 E5 H* Y6 J: |0 C本人同样只研究代码,不抓数据,不做词典;对该词典感兴趣的同学可照此思路继续下去;打算做伸手党的就别等了,三五年之后或许有人会放出来8 z% A1 @/ m( B3 B
    累觉不爱~~~{:10_293:}

    该用户从未签到

    发表于 2014-8-10 17:21:02 | 显示全部楼层
    唯有等Hugh大哥做吧.. 我相信Hugh大哥這個朗文控是不會放棄朗文6的~~
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:52:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-24 12:29 : |5 O# T' r% H! g' g) m
    模拟登录不难,百度一大堆现成的代码,拷过来直接能用; r: q: P4 d# s5 W
    session建起来就可以拿个大号针管抽血了
    " r  U% Z4 ?$ q0 q ...
    ( v2 h8 D- I: d' k+ W
    其实我抓取网页要不是用httrack(线程难控制)或teleport(数量限制).9 y3 j5 ]* I( x6 m8 Y& G
    就是自己编一个C程序,system()curl下载,用正则表达式过滤链接(可惜Java或js难处理),curl可以post网页(有一个查询网页就是要post才能下),自定义heads,cookies.啥事都搞定.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:59:35 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53 / i9 t+ o# r1 d0 W, s
    看来O大已经动手了,卡在哪个环节,有啥困难说说看
    / a, o) U4 H; J0 ^4 F) N2 ^3 m
    : L0 z9 ^1 ?& C9 N7 [登录型网站建议用requests库,它支持sessi ...

    , v* N( v+ M% Z6 Grequests库有没有C/C++ API?想试试看,libcurl参数多到我头晕,所以只能system()curl来下,不过好像速度有点慢(单线程)...
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:05:30 | 显示全部楼层
    我先用HttpAnalyzerStdV7抓GET和POST了
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:07:00 | 显示全部楼层
    我勒个去HttpAnalyzerStdV7崩溃还是用Wireshark吧
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:20:58 | 显示全部楼层
    我的天呀,全是POST.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:00 | 显示全部楼层
    POST /dict_search/get_entry_chunk_for_alpha_key/ldoce6/abdicate/0/ HTTP/1.1  A& [* H: m. G7 f" _3 o
    Host: global.longmandictionaries.com
    - z" d! ]5 g5 X2 `! h' n3 }+ UConnection: keep-alive
      O  K" X3 s/ P" ~2 J- T4 l5 uContent-Length: 0
    $ ]' I/ R, C6 O1 b# e+ k7 ?( BAccept: text/html, */*; q=0.01' W4 c1 M, @' P5 ]% N/ e; G9 M2 K* x
    Origin: http://global.longmandictionaries.com# o: S; ~% a3 C0 P% m8 P: R
    X-Requested-With: XMLHttpRequest% k' x/ E2 Y" |1 c$ {2 B
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.08 n+ X) \8 w5 x6 U4 r; W$ F
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8; w7 c$ O3 {! M2 `! M: r
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary7 \6 R/ S" a- S9 W
    Accept-Encoding: gzip,deflate,sdch
    + R- \4 L! R7 o+ X* xAccept-Language: zh-CN,zh;q=0.8& s0 T% v  `1 |) C/ _0 i2 o
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:53 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-9-7 09:24 编辑
    6 v3 s# w- V; _/ l
    2 O1 }8 U* Z  J4 o) K& a/ _) nPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    / ]' V+ y2 Q. s# |' O5 ~0 KHost: global.longmandictionaries.com
    ( M2 R9 l% B. ~, O) r0 nConnection: keep-alive
    * V$ c$ u+ ^0 W1 J7 TContent-Length: 23/ k$ P: q9 I* ~3 }4 Q& j* H
    Accept: */*6 O! K# V' x( @3 r0 o
    Origin: http://global.longmandictionaries.com
    1 `9 J  q, o8 B; `, G4 }" U2 |X-Requested-With: XMLHttpRequest
      t$ b* o, |2 ?$ B2 IUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    6 r0 s1 X" k+ ?+ fContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    ) M* W) a. N+ b) ^Referer: http://global.longmandictionaries.com/ldoce6/dictionary) l9 k& J. ]* J' V+ b9 A+ L7 L
    Accept-Encoding: gzip,deflate,sdch
    8 D& B8 K* j) h7 [& HAccept-Language: zh-CN,zh;q=0.8) x2 f+ Z1 |% T1 W
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    ' E5 y4 V+ F0 C4 j- xalpha_key=a_amp_w&name=
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:28:19 | 显示全部楼层
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1' L: l) A2 ^( P, Q: X
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    ' F: m* l9 _8 l. ~GET /res/audio/hwd/ame/2/abandon1.mp3 HTTP/1.1
    8 r( [5 x3 w( C% b- w6 U4 [GET /res/audio/hwd/bre/7/abandon_v0205.mp3 HTTP/1.1
    - |; b( V0 M7 G5 D1 b6 }终于有GET了,不过好像有点坑ame/2/abandon1.mp3和bre/7/abandon_v0205.mp3是什么规律
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:34:21 | 显示全部楼层
    abandon1,2实例:
    # E9 ?+ K" B" d$ YPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.12 A% H9 a) _7 s& O0 F" n; i, E
    Host: global.longmandictionaries.com
    ) k% k5 R  n3 a3 {Connection: keep-alive
    7 L* r* ~+ y# Y8 kContent-Length: 25" n: Z" [9 X" O9 |- J3 [+ y
    Accept: */*
    ; u$ J' Y4 ]; b/ V+ \# GOrigin: http://global.longmandictionaries.com4 D; r( t" y! h
    X-Requested-With: XMLHttpRequest$ z1 [; z: f6 J! q" p% p
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    $ Y; u/ ?1 Q+ dContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    9 i9 h' H: X) D/ ~8 X& s5 ^. dReferer: http://global.longmandictionaries.com/ldoce6/dictionary( d  g5 L- L; y- W* M9 E
    Accept-Encoding: gzip,deflate,sdch
    / N+ x; l, D' q1 Z: x/ mAccept-Language: zh-CN,zh;q=0.8
    7 Z0 v2 K) o* N! R, [# |Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    2 W% r) `' F3 i# Falpha_key=abandon_1&name=
    $ c& f# [5 x1 ?( J! ?+ _$ }$ A% Z& D/ i* W8 u

    * j% ]# B% X1 W  Z5 j2 @POST /dict_search/other_words/ldoce6/ HTTP/1.1
    5 i/ J* k& q8 S0 F5 eHost: global.longmandictionaries.com2 i1 }0 C1 q9 o% M3 }6 D& \
    Connection: keep-alive" I1 f7 ]+ \: Z7 ^
    Content-Length: 19* @" W$ ^. |3 g7 {. w( H4 y
    Accept: text/html, */*; q=0.019 x6 x) P  W: W: c: Q9 N: h
    Origin: http://global.longmandictionaries.com; Z  o3 F8 j0 P7 n5 h* I
    X-Requested-With: XMLHttpRequest
    ; L! h; F; ]) H4 |User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    " p0 U4 h/ Q) X2 R; Y6 sContent-Type: application/x-www-form-urlencoded; charset=UTF-8! ?' ^1 b$ \7 u2 Y; s+ p2 v# Z& \
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary
    & D6 A1 c) S% d  [" j& GAccept-Encoding: gzip,deflate,sdch! X; U2 ]5 e; w" y( s
    Accept-Language: zh-CN,zh;q=0.8
    6 A: ], l4 o2 ?7 I  B/ \/ N' U) oCookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    - e' Q5 A$ C) h, m+ L* J: Nentry_key=abandon_1
    2 q+ b% P9 _- ]4 }
    * D/ [* H# n5 \; o/ ]) T9 k7 M( u9 w% r  x; s4 s  e
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
      J6 [: G+ T+ ]6 J( y: lHost: global.longmandictionaries.com( x# m$ y, H/ w% l
    Connection: keep-alive8 p  v( m, z4 |6 z. D
    Content-Length: 259 ^9 x: c; d* J
    Accept: */*, A9 k  a2 @; [9 l/ E
    Origin: http://global.longmandictionaries.com% i  r, q! D, f1 S! }2 Z6 j& @
    X-Requested-With: XMLHttpRequest
    : ]( L+ v0 C7 z& d% xUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    # W+ h6 J/ I1 u& S8 m& o+ wContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    ) r- n0 p9 `- e$ J: ]Referer: http://global.longmandictionaries.com/ldoce6/dictionary/ o8 ^3 Q: Q1 V( l' i0 q, H
    Accept-Encoding: gzip,deflate,sdch* g! F7 c4 H3 ^! C6 H+ a
    Accept-Language: zh-CN,zh;q=0.82 c+ {6 x6 j7 ~
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    , k( P6 [# U) ~% X  X% Z) K2 O" Kalpha_key=abandon_2&name=
    3 h1 x* W* W9 Q
    - `' y5 u7 z2 M. ]
    6 \' I* `* y: J! tPOST /dict_search/other_words/ldoce6/ HTTP/1.12 X) L8 F- |+ A
    Host: global.longmandictionaries.com
    , ?- o0 ~* X4 |4 b, ZConnection: keep-alive
    ; e/ n1 `4 q& o; A# z0 J+ pContent-Length: 19
    9 f4 e( V% _5 TAccept: text/html, */*; q=0.016 j" e/ H" t7 R/ T6 h7 N
    Origin: http://global.longmandictionaries.com
    : q7 I. V. o1 ~0 Q* ~6 VX-Requested-With: XMLHttpRequest6 B9 H7 C9 s$ s$ m3 h
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    4 L  t9 W" y8 X8 z, k' ~: MContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    , Y( c! `7 l0 V" B. fReferer: http://global.longmandictionaries.com/ldoce6/dictionary
    " B* I1 A1 A' V2 E! ~) qAccept-Encoding: gzip,deflate,sdch7 F" i( C. a4 v; ^4 s3 c
    Accept-Language: zh-CN,zh;q=0.8
    - A; T% j1 Z  r1 `Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    9 B4 l% k( s: Y) u2 }0 |entry_key=abandon_2' v4 z9 y5 T, R
    ! f2 Z7 c; @3 z- S4 c0 ]

    ; R7 P( B- z+ f; i9 ~* {GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1- K- H( G$ E+ M3 g1 n
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    0 b* O, m  A, m/ a. p1 p: hGET /popup/supp/ldoce6/collocations/abandon_2 HTTP/1.1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-13 01:54 , Processed in 0.072235 second(s), 7 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表