掌上百科 - PDAWIKI

 找回密码
 免费注册

QQ登录

只需一步,快速开始

查看: 1475|回复: 15

[词典求助] 【求分享】英汉汉英双语平行资源

[复制链接]

该用户从未签到

发表于 2016-10-12 02:02:52 | 显示全部楼层 |阅读模式
本帖最后由 lxchen2001 于 2016-10-12 02:31 编辑 - e# o% g8 l. d

' e! i1 A; ]: {, t6 {5 o5 N虽然有一些资源,但想能收集更多一些:7 u7 @" x' @% l# L1 d  N1 ]1 C

. F2 C1 F, P  L4 D' P6 v0 n网站信息即可
8 ]4 u# R: s, o9 e3 t+ _# C7 h2 V0 z$ a' f( v2 z# U  {
要求:
  O& a9 F6 _7 S+ N- 翻译质量高 (类似经济学人或FT)% H$ V5 D0 j" Q6 s) R6 Z! {
- 素材质量高 (文字档,排版不乱, 如ft, 听 voa, 爱sien)
1 ]0 I7 o& N5 S! I9 H6 x0 h
# u& o. y2 C1 T0 V. J/ k; _4 Q, ]' Q4 i3 D1 z
(已有:部分经济学人素材、联合国双语素材、FT素材等)
  • TA的每日心情

    2021-3-6 14:47
  • 签到天数: 107 天

    [LV.6]常住居民II

    发表于 2016-10-12 09:26:38 | 显示全部楼层
    论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

    该用户从未签到

     楼主| 发表于 2016-10-12 17:55:22 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-12 18:01 编辑
    # w, m$ k* m8 @+ M, |6 k7 Y8 Y
    怪物猎人哥 发表于 2016-10-12 09:26% g8 ~  f6 h* n: L5 Y" g
    论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html
    , O2 @" a. F, x4 i  u
    ! A6 q$ O7 t9 x+ t) B
    谢谢 很有特色的网站。
    0 j$ {- k% }+ Y8 ]' {8 b; b
    ) B0 X: P5 U7 B3 }2 z0 h( B运营模式很特别

    该用户从未签到

    发表于 2016-10-12 21:05:57 | 显示全部楼层
    本帖最后由 goldmonkey 于 2016-10-12 22:05 编辑
    2 A. B  a- w4 X2 b+ y' G# p
    1 a# N) v  I4 ~7 f* H我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
    . D" r! J  j9 q. j6 I& a# |: A# g6 S# l) o7 W1 _
    https://www.pdawiki.com/forum/fo ... hread&tid=114053 L* W# }  k, z! B2 h+ K' R4 ]

    ; N9 |+ ?& k3 U: O; W1 l; _帖子里大概有4993份文本(采用段落对齐,但有部分对齐好像有误),我在用FileLocator的时候经常能在里面找到想要的用法
    + T( l$ H* P4 m/ f4 H, S0 A! N% G7 y) }7 y- ]6 T/ H1 r. [
    我感觉cuyoo网的结构确实如同帖子里说的一样非常清晰
    1 j1 }. {9 `( y  h" r/ v) y: _! @; c  X- Z. E
    但是我的python编程能力不够: M0 G( ]5 d4 p' O: ?
    ; R- ~# B3 b6 A# R$ W" E
    整个网站大概有3万份文本,如果全部都能处理成段落对齐的txt形式,估计会非常有用( |( s' \8 p, k

    4 l3 L& v2 u) T' e0 fbtw,能不能问下楼主的素材哪里找的?

    该用户从未签到

     楼主| 发表于 2016-10-12 22:32:49 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-12 22:42 编辑
      h, L* F; ~% W, F  t
    goldmonkey 发表于 2016-10-12 21:054 o; N6 |, {) S: w
    我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
    & d: `7 _6 v' N; D8 V  Y9 [; d% ]
    ) b' m0 X  n0 M6 f9 ?3 Ihttps://www.pdawiki.com/forum/forum.php?mod=v ...

    8 U# [( u. p2 R, S8 W6 `
    % b. ]) s- g9 q+ `  v听VOA上面有2300多篇经济学人的,从2013开始0 I3 l7 C0 L( E( h1 Q

    9 s1 K+ M8 Z* {! o: H  B5 P! k) g) O+ hFT上面有很多双语文章。
    0 g4 _$ |* M$ w
    . x1 T/ v# Q* A& R抓取,处理成文本应该不成问题,只要网站比较有规律。" e3 c5 g2 e3 P* b, ~4 b& D+ {/ R0 i

    . A' {6 j% Q2 x' V( f$ I看了一下cuyoo, 很多双语的是来自于FT。

    该用户从未签到

     楼主| 发表于 2016-10-13 03:11:08 | 显示全部楼层
    goldmonkey 发表于 2016-10-12 21:05
    " L2 e0 b) n" J$ v4 }' q我除了那几本英汉词典外就只有这篇帖子里提供的双语资料" f9 H- H, I0 C4 ?
    1 t  d* }, |) P( B3 j' A
    https://www.pdawiki.com/forum/forum.php?mod=v ...

    ; Z% a4 b4 V2 t% ?( ]: U这个帖子里面的内容也还不错
    - \2 M/ ?8 ?: x+ B, r  `" i$ D' w) n+ g( \6 v
    https://www.pdawiki.com/forum/fo ... hlight=%D3%EF%C1%CF7 i( f* {; Z! p% t8 s) Z% J
    & k8 g" K( e# r% r0 H5 ]7 u  ]3 {
    linguee 查询可以加入到GD

    该用户从未签到

    发表于 2016-10-13 10:11:29 | 显示全部楼层
    lxchen2001 发表于 2016-10-12 22:323 N2 l  s. A  P9 X# g& d
    听VOA上面有2300多篇经济学人的,从2013开始! Y& O  G$ O0 }5 ~* P

    % I; j) E) {% W2 _" ~FT上面有很多双语文章。
    " a4 E( N# j9 U# ]/ t$ K1 ^
    cuyoo的网址非常有规律
      L: v2 \1 Y* n9 V8 W- a$ Thttp://www.cuyoo.com/article-*-1.html6 W* O7 h- W2 V0 ?7 I: h( Q
    就是这么简单。。。* G& u/ v% a! a  d% D9 _
    7 e/ z# {2 N+ p1 Q
    我自己昨晚用beautifulsoup试了试
    4 J& U$ J  e, V大概就是用soup.find_all(class_="vw visits")
    1 e+ [- h" A) K. m0 C, L就是会有些无用的信息(“路过雷人鲜花鸡蛋”这种),不过影响不大
    * `! M" Q0 _" l: k% ^; Q0 g但主要的问题这样提取出的文本全部都在一个段落里4 E2 h* W* C/ l; {
    那个帖子里的楼主也提到这个问题
    8 c' Z9 F9 k. R/ V0 L. C4 L他是这么说的:“试过用采集工具(spider/crawler 之类的工具)下载,下载后的文件无法实现段落对齐(就是一段英语,一段中文),最后改用监视剪贴板的树状笔记软件(keynote nf)手工复制收集而得”
    1 O9 {! r3 B. \+ L手工显然太累了。。。& P8 f% r6 n+ S. Z# n$ F* c  J1 R
    我不知道怎么处理才好

    该用户从未签到

     楼主| 发表于 2016-10-13 14:32:30 | 显示全部楼层
    goldmonkey 发表于 2016-10-13 10:11
      {4 J" |2 t6 {6 `) P' x. i( k5 ~cuyoo的网址非常有规律7 s8 M- C3 V" q+ `8 D
    http://www.cuyoo.com/article-*-1.html( B/ `- u8 q& {# V
    就是这么简单。。。
    ) [9 _7 P# @& f$ \6 J  A3 j6 `
    我自己没去抓取cuyoo的1 p# W7 S; y  d, [* G5 Z" U4 T
    1. 你可以用find('table', class_='vwtb')试试看  这样抓取的应该就只是table里面的内容" f. f& m. i( J: M* _* K
    2. 英文有etext* 中文有ctext* id 应该不需要手动调整 直接可以分行

    该用户从未签到

    发表于 2016-10-13 15:57:50 | 显示全部楼层
    lxchen2001 发表于 2016-10-13 14:32, f/ |. C4 [. a
    我自己没去抓取cuyoo的
    - L9 _  z2 w& x! f* c  M1 l1. 你可以用find('table', class_='vwtb')试试看  这样抓取的应该就只是table里 ...
    4 W8 y/ P6 v4 G4 j$ W4 W0 E& h
    不知道为什么抓出来的是英文在一起,中文在一起的
    6 e+ R& _4 L/ r+ g2 Z
    1. import requests
      ) Z7 {5 l0 |+ F2 o6 w2 ]" ^; y; V
    2. from bs4 import BeautifulSoup' K5 T8 T. K5 S1 i$ G6 u
    3. r=requests.get('http://www.cuyoo.com/article-30928-1.html')
      7 {# A4 G3 ]2 _7 |9 b. I4 M
    4. soup=BeautifulSoup(r.text,'lxml')
      + I1 L/ c4 o1 T0 O
    5. tables=soup.find_all('td')7 y; X" \7 H. l, L) y( T. C
    6. for table in tables:# s, m- Z% g' V: f
    7.         print(table.get_text())
    复制代码

    该用户从未签到

     楼主| 发表于 2016-10-13 17:44:20 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-13 18:15 编辑 ) C  Q9 ^9 u- i9 N  C
    goldmonkey 发表于 2016-10-13 15:57
    9 c; c9 u! g: b( T) j$ q( d  l9 v不知道为什么抓出来的是英文在一起,中文在一起的

    / b2 h& m! |) y$ f  n' a$ x' }- D3 K( b2 h
    我明白你的问题了。你想把文章一句句拆开。$ e$ }+ u) u2 R7 E3 Q
    0 D) C% k; S: I
    网页HTML上文字是放在一起的,经过处理后才成为两个栏位的。所以光用bs是不够的。
    / a# Z1 [0 i, `5 d5 J/ s

    本帖子中包含更多资源

    您需要 登录 才可以下载或查看,没有账号?免费注册

    x

    该用户从未签到

    发表于 2016-10-13 18:42:44 | 显示全部楼层
    lxchen2001 发表于 2016-10-13 17:44" o3 p. f2 E/ o- ]8 e/ i3 e4 M% M& C
    我明白你的问题了。你想把文章一句句拆开。+ ?  i/ C: M: g0 @7 p
    , X1 f2 X2 `, y) `) z2 E' u
    网页HTML上文字是放在一起的,经过处理后才成为两个栏位 ...
    # H+ {) ^+ ?- B0 I! `! r2 m7 o
    这样应该可以了. P; f5 R; }: S1 `
    1. import requests7 ^* |: E) T4 ?+ C, [: E0 K
    2. from bs4 import BeautifulSoup& f9 S5 {1 {- ~2 N
    3. r=requests.get('http://www.cuyoo.com/article-30928-1.html')% k' G0 ~" n% p( T4 s3 \; X5 }( Z
    4. soup=BeautifulSoup(r.text,'lxml')
      6 a) O+ b, b; U; I' x4 L* v: Y4 Q
    5. en=soup.find(id='en')% N2 u  d5 B2 V. d8 g: C! N1 V
    6. enstring=en.strings2 x7 s$ A7 d! l6 l' p
    7. cn=soup.find(id='cn')
      + ^0 B5 q$ c3 Q* M- }* |
    8. cnstring=cn.strings
      9 Z5 G' m; D& r
    9. file=open('/30928.txt','w',encoding='utf-8')( T4 {9 M/ J! h
    10. while True:
      4 @  W) K" y# A* j( G
    11.     try:4 r9 G8 d# p3 {& z8 J5 n
    12.         ensentence=next(enstring)) E0 B$ l  j+ p
    13.         #print(ensentence)% F4 N$ o% t1 u7 T8 R
    14.         file.write(ensentence)
      6 U7 v1 J1 e) x0 |1 W2 w- i8 h5 {4 g
    15.         file.write('\n'). l% d2 x: I/ G5 D4 `' K4 r3 R
    16.         cnsentence=next(cnstring)7 h& K) c( O( I3 K# |
    17.         #print(cnsentence)6 j- p8 O) n+ A8 r: L) u. u
    18.         file.write(cnsentence)( P. [$ a8 M. m2 u( ?( I
    19.         file.write('\n')
      * t" |" A, M1 d0 `' r
    20.     except StopIteration as e:% v  m: {0 A+ y+ F# M! M
    21.         print('Finished')8 ~5 D; z0 P2 T# ]
    22.         break. `0 m+ a$ `% U; A$ z  p
    23. file.close()
    复制代码

    该用户从未签到

     楼主| 发表于 2016-10-13 18:59:12 | 显示全部楼层
    goldmonkey 发表于 2016-10-13 18:42
    8 [* Y* S3 A2 m, m1 O: f这样应该可以了
    1 Y$ p* r8 d% l2 m, D' P5 U( z" I
       很好用  多交流

    该用户从未签到

    发表于 2016-10-13 19:13:37 | 显示全部楼层
    lxchen2001 发表于 2016-10-13 18:59
    : Y  Z) W; F3 ]) f" j5 B很好用  多交流

    % x4 q& X# o7 Q* b4 E- A
    - A) l+ B- x, W* U- x感觉写得太粗暴了。。。
    0 G9 {4 a8 ~: e- }9 \: C2 m) i3 k# T8 r8 w
    看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

    该用户从未签到

     楼主| 发表于 2016-10-13 19:23:34 | 显示全部楼层
    goldmonkey 发表于 2016-10-13 19:135 n; [3 }( |) V1 `1 s9 @
    感觉写得太粗暴了。。。$ b4 x  l$ @: o
    % b* n1 x$ V. K7 g+ B; \+ o7 W
    看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的
    0 m: b/ D/ {( r9 g; ~( }4 w
    现在越来越多的网站会用一些技术来防爬虫 5 I5 {  c' l! f6 D& R6 q# x) @
  • TA的每日心情

    2021-11-16 21:00
  • 签到天数: 119 天

    [LV.6]常住居民II

    发表于 2016-10-14 19:05:04 | 显示全部楼层
    http://novel.tingroom.com/shuangyu/  这里有双语小说, 不知道有用不,  另外问一下各路大神,  还有没比较好的双语小说网站?  以及有没有什么好的英语有声书网站

    该用户从未签到

     楼主| 发表于 2016-10-15 01:01:11 | 显示全部楼层
    本帖最后由 lxchen2001 于 2016-10-15 02:02 编辑
    5 E& |! Z5 z7 Q; m
    hao371269498 发表于 2016-10-14 19:054 I# q  V) |: W9 x1 ~2 _& g( ]
    http://novel.tingroom.com/shuangyu/  这里有双语小说, 不知道有用不,  另外问一下各路大神,  还有没比较 ...

    4 W1 c3 Z/ n3 C5 v9 R4 u: M: Y& y" a
    9 b0 e  a# h  J8 b谢谢。这个网站的小说双语是按照章节来分的,不太好处理。最好一句或者一小段平行,就像cuyoo上面的文章那样的。
    2 a/ `& ]" b7 H% c! T% z# d9 |. ]0 Q2 I
    cuyoo上也有双语小说, 排版方式和tingroom差不多
    " t$ v3 ~( Y1 Y) ~" g/ m24en.com的排版是可以2栏,但不平行
    $ v% o- D% i  A" A+ Qtingvoa有些小说是分小段平行. _, _, S$ l+ O% H; R- e
    7 @4 H3 I0 K& R8 O3 h
    沪江 keke的格式相对比较喜欢,但是分成太多网页,也不是太方便
    ) j& |0 P3 F) [/ x7 K0 |  ^
    ( M+ B; N! o, F0 i" B英语有声书:
    . y- X1 r) j/ r" t免费的:
    - _8 _, n) M5 _$ R5 q% E* Uhttps://librivox.org/$ U* \; U$ m0 `" L1 m0 y8 |0 Q
    http://www.openculture.com/freeaudiobooks
    / k  S' x0 P7 W4 O+ I5 y" l6 h" X" \: ^# w' d! @' e
    亚马逊收费的
    ( x1 S/ @/ }* t* s1 P+ I, oaudible.com  不少有名人配音
    您需要登录后才可以回帖 登录 | 免费注册

    本版积分规则

    小黑屋|手机版|Archiver|PDAWIKI |网站地图

    GMT+8, 2025-4-29 16:52 , Processed in 0.023252 second(s), 22 queries .

    Powered by Discuz! X3.4

    © 2001-2023 Discuz! Team.

    快速回复 返回顶部 返回列表