掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

楼主: sqihuan

[词典讨论] 朗文当代高阶英语词典 6版

[复制链接]

该用户从未签到

发表于 2014-7-28 20:57:55 | 显示全部楼层
朗文销量不逊于牛津吧,可能还要更大一点,为何要退出?

该用户从未签到

发表于 2014-7-30 12:50:26 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:04 ' j2 s5 ^2 S' z- r$ p9 |
成本的問題,所以朗文不出了。至於5年後朗文7的前景,也不樂觀。

* s0 r, j  b( b% h' A% L  D主力編輯已離開團隊, 所以朗文7的質素能否維持一來以往的水準, 甚或再有大更新,則未知了。希望不會好像 collins 那樣每況愈下就好了。

该用户从未签到

发表于 2014-7-30 12:52:45 | 显示全部楼层
ceoyee 发表于 2014-7-28 14:07
+ C* O: j7 k( W6 S& X對文科生來說,學編程是很痛苦的。我猜你們現在弄編程的,大部份專業也是計算機。
9 V( ]4 t; X! L
不清楚國內的教育情況。不過我很欣賞搞編程的人,能開發實用的程序,方便大眾,改善生活,增加工作效率。

该用户从未签到

发表于 2014-7-31 21:14:33 | 显示全部楼层
看着真心眼馋。。。有种把数据抓下来的冲动。。。{:5_199:}
  • TA的每日心情
    开心
    2021-5-6 12:15
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-7-31 21:43:07 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 ' ^2 o* T2 u" w' p* Z0 i+ h+ h. l
    看着真心眼馋。。。有种把数据抓下来的冲动。。。

    7 w# F$ U9 Q' d哈哈,支持支持
    9 t& z+ y# C' S- X4 z如果抓到数据了能否分析下和5th的具体差别?

    该用户从未签到

     楼主| 发表于 2014-7-31 22:26:10 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 7 p" Q9 Y6 K5 [0 \2 T) ]6 d
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    . S% y, [' i6 a2 g- }
    支持支持。大力支持大大。网络爬虫真的不会。。。。哎 只能伸手党了!

    该用户从未签到

    发表于 2014-7-31 22:35:54 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 5 e2 p2 k5 A& |
    看着真心眼馋。。。有种把数据抓下来的冲动。。。

    8 Y* z4 p' z3 d4 Y= =装了python环境,还是不懂怎么抓

    该用户从未签到

    发表于 2014-8-3 09:25:37 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14
      t' p0 J0 o* g" @  L/ k- F7 f1 V看着真心眼馋。。。有种把数据抓下来的冲动。。。

    ! i; l+ U! E4 B3 S5 |! y除了朗文6之外, 在去年還出了一個 collocations dictionary
    ' A& V( Z: K9 v: I' _* S) U此本字典同樣沒有光碟版, 只提供網上搜索。
    $ V# L: [! O' s! ?& S
    ) |: E5 |! `* y( g7 C不過能抓下來, 同樣是功德無量了。

    该用户从未签到

    发表于 2014-8-3 18:51:18 | 显示全部楼层
    謝謝O大你提醒我啊!! 難怪腦海中一直覺得在掌上百科有 collocations 字典..但一直想不起來..
    ( Z* P" }0 U0 ~, J4 qHugh大 真的了不起! 感謝!!!

    该用户从未签到

    发表于 2014-8-9 21:24:23 | 显示全部楼层
    bt4baidu 发表于 2014-7-31 21:14 7 m! L% N. [. H$ R, B$ t
    看着真心眼馋。。。有种把数据抓下来的冲动。。。
    ; r* h$ {+ v* @: I; ^& i% v9 B' K) |
    稍微研究一下网站构造,朗文真是堪称环保的典范6 u' W8 n2 [; Y- p4 X
    查词的时候居然只返回词条内容那一小块HTML,一丁点垃圾代码都没有,甚至连一个多余的空格都没有,太赞勒: P( v+ z( m5 ?: \
    这也意味着跑一遍单词表,把得到的数据用</>分隔一下,直接就是成品了2 I; h) P& z4 G( K1 l/ t

    - a+ ~( Z! P4 s" Q不用抠数据,不用编辑,不用格式化,一切就是这么简单

    点评

    没那么简单,不信你试试。o(∩_∩)o  发表于 2014-8-9 21:31

    该用户从未签到

    发表于 2014-8-9 21:53:47 | 显示全部楼层
    本帖最后由 bt4baidu 于 2014-8-9 22:00 编辑
    1 a! F5 A4 e0 K$ u4 l1 I
    & k3 ?% E: z3 A% i8 t4 x0 O# i1 {看来O大已经动手了,卡在哪个环节,有啥困难说说看{:5_217:}
    $ R; E5 D! F, o3 U# z8 C, E+ p) P, k8 R
    登录型网站建议用requests库,它支持session,自动支持cookies,而且内部有个用urllib3实现的HTTP连接池,相当于像蚂蝗一样叮上就不松口,效率非常高* k. q5 ?0 K" T. _
    Longman比较特别的是大量用FORM POST,不像一般网站都是GET
    ( Z( x$ M# z6 c; U% D. B. Z
    : a6 _# U9 y, F6 [$ q
    没那么简单,不信你试试。o(∩_∩)o  
    9 ^& _* @8 s1 S

    5 J5 \: u9 o% L) G不要教唆我干坏事。。。
    ; c% |2 O% ?" c! s! u6 p0 u5 D6 h8 L) f2 Z  p( N5 o. F2 @, I
    我试了一个词条,原始HTML,原始CSS,未作任何编辑改动就已经达到如此效果:
    6 x0 ?- E0 e  w6 M9 _5 [
    6 ~* f2 I' J% J6 F/ d/ `8 m

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2014-8-9 21:59:53 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53
    ) I- |7 d4 f4 B看来O大已经动手了,卡在哪个环节,有啥困难说说看 5 E3 y. z9 i$ F

    / F( b" [0 y/ G7 K登录型网站建议用requests库,它支持sessi ...
    + ^$ O/ V, [( F! \
    {:5_227:} 7 _. c' t6 M) d$ S

    % L1 d' a# y" b; }" K+ ?卡在了第一步,对学习型词典无爱。
    6 }$ u$ h& p8 a
    / P# v% s2 H0 w4 \( p我只是大概觉得要获取完整的Headword List似乎不那么容易。
    ( U* J# O# ]2 T  Z" m  v3 [9 b$ x4 B" \

    该用户从未签到

    发表于 2014-8-9 22:05:15 | 显示全部楼层
    Oeasy 发表于 2014-8-9 21:59 $ j! \8 a" K) W+ F& a( b$ M
    卡在了第一步,对学习型词典无爱。
    ! {& u6 L# j# B# ^; x: H: C; m8 J& f" v: D
    我只是大概觉得要获取完整的Headword List似乎不那么 ...
    : E* Y) `5 l; J+ `; D4 q& b  ?
    http://global.longmandictionarie ... key/ldoce6/%key%/1/
    1 R: y3 L! w, Y' k8 y& _" v5 _! j9 v( F$ X
    每跑一次返回一个HTML片断,用这个正则即可搞到查询用key;用该片断的最后一个key和拼进上面的url即可获得下一片断,循环下去直到最后一个单词‘zzz’返回空<ul></ul>,结束。
    1. <li><a\s+data-alphakey="([^"]+)"\s*data-key="([^"]+)">
    复制代码

    该用户从未签到

    发表于 2014-8-9 22:12:17 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 22:05 4 A- @5 k) J  ?' t
    http://global.longmandictionaries.com/dict_search/get_entry_chunk_for_alpha_key/ldoce6/%key%/1/
    : R6 @5 x3 c9 L3 `
    . t: N1 [; M; k9 p" c0 j ...
    + k) a7 q' ^  Y+ t
    {:5_227:}
    * Q( ]0 g$ l4 ~7 l会者不难,想学就会。1 ]5 M* k' |( x; X/ o1 i, e
    不过,累觉不爱。

    该用户从未签到

    发表于 2014-8-9 22:19:13 | 显示全部楼层
    {:5_217:}
    0 R  Z8 p' Y' {& V$ N& Y9 b" R+ c! P
    本人同样只研究代码,不抓数据,不做词典;对该词典感兴趣的同学可照此思路继续下去;打算做伸手党的就别等了,三五年之后或许有人会放出来
    ' V" Q# b1 I* `累觉不爱~~~{:10_293:}

    该用户从未签到

    发表于 2014-8-10 17:21:02 | 显示全部楼层
    唯有等Hugh大哥做吧.. 我相信Hugh大哥這個朗文控是不會放棄朗文6的~~
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:52:16 | 显示全部楼层
    bt4baidu 发表于 2014-7-24 12:29 2 V$ v9 }* N$ T" k% c
    模拟登录不难,百度一大堆现成的代码,拷过来直接能用
      t0 r+ b0 n$ I& [8 n( [6 tsession建起来就可以拿个大号针管抽血了% U1 }; Q! Z* s1 U7 }, n9 D7 C
    ...
    " W3 X# ], M2 e
    其实我抓取网页要不是用httrack(线程难控制)或teleport(数量限制).
    9 Z4 d% _+ U" b6 x: Q7 r) a+ n就是自己编一个C程序,system()curl下载,用正则表达式过滤链接(可惜Java或js难处理),curl可以post网页(有一个查询网页就是要post才能下),自定义heads,cookies.啥事都搞定.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 08:59:35 | 显示全部楼层
    bt4baidu 发表于 2014-8-9 21:53 8 ~2 @" j7 ], k9 M4 J
    看来O大已经动手了,卡在哪个环节,有啥困难说说看 4 _) e0 o( p2 \% E" i
    & f; o6 z4 T& ?. A; {, B' q9 I& f
    登录型网站建议用requests库,它支持sessi ...

    - g* n5 X* Z: s3 Xrequests库有没有C/C++ API?想试试看,libcurl参数多到我头晕,所以只能system()curl来下,不过好像速度有点慢(单线程)...
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:05:30 | 显示全部楼层
    我先用HttpAnalyzerStdV7抓GET和POST了
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:07:00 | 显示全部楼层
    我勒个去HttpAnalyzerStdV7崩溃还是用Wireshark吧
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:20:58 | 显示全部楼层
    我的天呀,全是POST.
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:00 | 显示全部楼层
    POST /dict_search/get_entry_chunk_for_alpha_key/ldoce6/abdicate/0/ HTTP/1.1
    % }+ Q: V5 ]# I2 A# P' jHost: global.longmandictionaries.com
    - x6 s& }' Q# v! I, MConnection: keep-alive2 D" f- {* |. H
    Content-Length: 0$ N8 k1 ^; ?. |1 B2 }, U5 I
    Accept: text/html, */*; q=0.01
    ( S( `/ x' A. p- N- M8 MOrigin: http://global.longmandictionaries.com
    ! R& U3 u1 r) p% Q( t, L. fX-Requested-With: XMLHttpRequest, `& F8 |& w$ Y' v/ @# I* N
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    2 f1 U  h& o; p8 jContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    ' ?/ M" F/ C+ U  h7 p+ X0 YReferer: http://global.longmandictionaries.com/ldoce6/dictionary
    ! Q" V- U: b2 c+ cAccept-Encoding: gzip,deflate,sdch
    6 V2 x9 M2 v( y3 i* X) v, \Accept-Language: zh-CN,zh;q=0.8
    5 h9 @. j+ @: Y2 F& P7 A( p2 u' ^Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:22:53 | 显示全部楼层
    本帖最后由 zjzengdongyang 于 2014-9-7 09:24 编辑
    8 L* O# @7 t- h  m$ C# ~: k# k0 |- @/ i$ }+ I  Y6 i. y3 ?4 m  u; I0 S2 ~
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    9 W: s. N# U; O; JHost: global.longmandictionaries.com% f' ~& S4 a4 S$ Q3 g+ E
    Connection: keep-alive2 N1 U- X. B9 x9 x
    Content-Length: 23
    " h( U" e( w* @Accept: */*) m1 G! W5 D4 r
    Origin: http://global.longmandictionaries.com2 }5 o8 l' V9 E6 s
    X-Requested-With: XMLHttpRequest
      i+ i; x  x# SUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    $ x4 o: B& K, vContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    * Q# `2 A6 f+ X" C- e+ E- L: YReferer: http://global.longmandictionaries.com/ldoce6/dictionary" h' ^) c5 d/ L; e' ?
    Accept-Encoding: gzip,deflate,sdch1 J; e# N/ z+ B* d5 S4 J
    Accept-Language: zh-CN,zh;q=0.8
    " i( `5 R5 R) X) `) _Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    - Q4 Q+ W- C! z3 y' galpha_key=a_amp_w&name=
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:28:19 | 显示全部楼层
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1' i. K: ?2 {0 T. e$ K
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    ' x' t3 K0 e9 vGET /res/audio/hwd/ame/2/abandon1.mp3 HTTP/1.1
    7 b. j. o2 @8 j( J3 [/ aGET /res/audio/hwd/bre/7/abandon_v0205.mp3 HTTP/1.1
    6 Q3 B" r' m  d# u终于有GET了,不过好像有点坑ame/2/abandon1.mp3和bre/7/abandon_v0205.mp3是什么规律
  • TA的每日心情
    郁闷
    2018-12-17 20:03
  • 签到天数: 2 天

    [LV.1]初来乍到

    发表于 2014-9-7 09:34:21 | 显示全部楼层
    abandon1,2实例:2 A5 J7 o# C+ r) S5 z+ R3 p( d3 V7 E2 ~
    POST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.15 X8 r% i& p7 O8 _6 Y
    Host: global.longmandictionaries.com
    * X: ?7 m/ W& A2 V$ @/ wConnection: keep-alive
    6 z7 F% L: M6 z, U! kContent-Length: 25( p1 A6 u1 S# J" o: \
    Accept: */*. C% k6 E' t# C; Y) _
    Origin: http://global.longmandictionaries.com: m$ X( R" ]; Z
    X-Requested-With: XMLHttpRequest
    , o& w3 h6 Y5 F& j# w5 N! iUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    8 J( _; `& m: ^8 W* F- k( qContent-Type: application/x-www-form-urlencoded; charset=UTF-8+ a* ]  \/ r+ q$ R: a
    Referer: http://global.longmandictionaries.com/ldoce6/dictionary" L6 \7 B, `" ?" @" W
    Accept-Encoding: gzip,deflate,sdch
    % \7 m' V+ [, ?; K4 oAccept-Language: zh-CN,zh;q=0.8! o+ P5 |  B. b
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    " x6 U- I" i$ o* @4 o- B1 o/ Dalpha_key=abandon_1&name=3 b. x+ i: v  q2 y6 X
    3 y% W: v& O; z5 |

    ( s, V2 Y' y1 O+ C( d: M6 H. oPOST /dict_search/other_words/ldoce6/ HTTP/1.11 B( c, U7 e1 c, l( H$ h" t
    Host: global.longmandictionaries.com
    6 M4 J( Q3 s4 O$ v- EConnection: keep-alive
    ( O& K# Q4 b9 X; W: A) [$ G. KContent-Length: 19
    % Z* l0 l) o5 n) [8 q& GAccept: text/html, */*; q=0.01
    $ ^" d9 X2 R( d- jOrigin: http://global.longmandictionaries.com
    0 }5 w3 _4 h& D6 V2 v3 `6 e2 LX-Requested-With: XMLHttpRequest
    ; Y/ f/ T3 u) l9 i# ~+ l& DUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0; L( _' g& y8 X2 m) `4 k1 Q2 C. F
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8
    ) g2 {. S6 V& A" J6 Z* `  P& c% yReferer: http://global.longmandictionaries.com/ldoce6/dictionary
    ) B8 c4 x5 ]" `9 u) RAccept-Encoding: gzip,deflate,sdch* |% L% ?2 B, h8 o  Y$ p0 `: M
    Accept-Language: zh-CN,zh;q=0.8% P. }5 V; O9 d% b: ]+ y
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    ; z; y6 `1 _' r2 ientry_key=abandon_1
    " e" g4 K9 L1 a& H# ~8 A5 s- {" e" j

    1 d( r/ H) r9 h' O, d& I# M  Z* XPOST /dict_search/entry_for_alpha_key/ldoce6/ HTTP/1.1
    % K; |8 ~- i' W# l9 |3 e" FHost: global.longmandictionaries.com
    9 R- X: ]$ W/ h8 MConnection: keep-alive+ @4 q& a, O# v8 m" e3 c
    Content-Length: 257 Z; F% @6 v0 k) c/ n  t7 H
    Accept: */*. f  p- {* t* q
    Origin: http://global.longmandictionaries.com( [0 x$ Y4 {; k: J
    X-Requested-With: XMLHttpRequest
      l# S; a" ^# n* e1 k6 r" F, v. P  qUser-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.0
    7 b# x5 \) B- ZContent-Type: application/x-www-form-urlencoded; charset=UTF-8
    8 L% Z. X' k5 Y6 R8 p: DReferer: http://global.longmandictionaries.com/ldoce6/dictionary) j( r) x0 ?; O* j  I+ f0 }# G
    Accept-Encoding: gzip,deflate,sdch  L- T$ d( d  ~% v$ S4 m
    Accept-Language: zh-CN,zh;q=0.8( b6 V! ]* i( e" `1 s. `
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    , V' \; Z: H  E9 }) o) jalpha_key=abandon_2&name=; s, }, @$ V7 }# Q: q
    ; d+ T$ P" q* d' p6 d
    ' S! ?2 p/ C* T% @
    POST /dict_search/other_words/ldoce6/ HTTP/1.1; ^$ |: q- I% I2 }& W% Q" p! j
    Host: global.longmandictionaries.com
    " b; E# q5 @2 PConnection: keep-alive
    " }: d( [3 ]9 w  BContent-Length: 192 `+ }- F; p8 j; u! ~' G
    Accept: text/html, */*; q=0.01
    6 `8 X5 P4 F: F- t& q5 B+ n1 xOrigin: http://global.longmandictionaries.com7 `7 f- q$ r' Y* h" ?: S( d
    X-Requested-With: XMLHttpRequest5 t1 m& |' ~/ P
    User-Agent: Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36 SE 2.X MetaSr 1.05 E9 x: j6 }' o3 {6 s9 M" U; L
    Content-Type: application/x-www-form-urlencoded; charset=UTF-8
    , l4 {) i) E9 D* W* V; W' P( I* {, bReferer: http://global.longmandictionaries.com/ldoce6/dictionary5 R+ ]9 ^, @& a
    Accept-Encoding: gzip,deflate,sdch
    ! {) Q! H1 ~+ r  fAccept-Language: zh-CN,zh;q=0.81 ]  V( k8 w1 Z! G( d( k( W
    Cookie: ci_session=a%3A10%3A%7Bs%3A10%3A%22......
    3 ~2 y4 D8 l% j; e  K' k  F* g% d; Dentry_key=abandon_2) p1 t/ S- V' C' O

    - E2 r- p: e) t' K1 B; H7 m4 c9 t' }5 ~
    GET /popup/supp/ldoce6/phrases/abandon_2 HTTP/1.1' j7 u, }- P+ D! Y1 G+ Q; D% i
    GET /popup/supp/ldoce6/examples/abandon_2 HTTP/1.1
    ; Q2 ?% H# G7 _8 t! h5 |GET /popup/supp/ldoce6/collocations/abandon_2 HTTP/1.1
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2024-6-1 12:50 , Processed in 0.077709 second(s), 11 queries , MemCache On.

    Powered by Discuz! X3.4

    Copyright © 2001-2023, Tencent Cloud.

    快速回复 返回顶部 返回列表