【求分享】英汉汉英双语平行资源

lxchen2001 · 发表于 2016-10-12 02:02:52

本帖最后由 lxchen2001 于 2016-10-12 02:31 编辑

虽然有一些资源，但想能收集更多一些：

网站信息即可

要求：
- 翻译质量高（类似经济学人或FT）
- 素材质量高（文字档，排版不乱, 如ft, 听 voa, 爱sien）

(已有：部分经济学人素材、联合国双语素材、FT素材等）

怪物猎人哥 · 发表于 2016-10-12 09:26:38

论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

lxchen2001 · 发表于 2016-10-12 17:55:22

本帖最后由 lxchen2001 于 2016-10-12 18:01 编辑

怪物猎人哥发表于 2016-10-12 09:26% g8 ~ f6 h* n: L5 Y" g
论腾网有相当多翻译后的国外双语新闻,评论什么的. http://www.ltaaa.com/translation.html

谢谢很有特色的网站。

运营模式很特别

goldmonkey · 发表于 2016-10-12 21:05:57

本帖最后由 goldmonkey 于 2016-10-12 22:05 编辑

我除了那几本英汉词典外就只有这篇帖子里提供的双语资料

https://www.pdawiki.com/forum/fo ... hread&tid=11405

帖子里大概有4993份文本（采用段落对齐，但有部分对齐好像有误），我在用FileLocator的时候经常能在里面找到想要的用法

我感觉cuyoo网的结构确实如同帖子里说的一样非常清晰

但是我的python编程能力不够

整个网站大概有3万份文本，如果全部都能处理成段落对齐的txt形式，估计会非常有用

btw，能不能问下楼主的素材哪里找的？

lxchen2001 · 发表于 2016-10-12 22:32:49

本帖最后由 lxchen2001 于 2016-10-12 22:42 编辑

goldmonkey 发表于 2016-10-12 21:054 o; N6 |, {) S: w
我除了那几本英汉词典外就只有这篇帖子里提供的双语资料
& d: `7 _6 v' N; D8 V Y9 [; d% ]
) b' m0 X n0 M6 f9 ?3 Ihttps://www.pdawiki.com/forum/forum.php?mod=v ...

听VOA上面有2300多篇经济学人的，从2013开始

FT上面有很多双语文章。

抓取，处理成文本应该不成问题，只要网站比较有规律。

看了一下cuyoo, 很多双语的是来自于FT。

lxchen2001 · 发表于 2016-10-13 03:11:08

goldmonkey 发表于 2016-10-12 21:05
" L2 e0 b) n" J$ v4 }' q我除了那几本英汉词典外就只有这篇帖子里提供的双语资料" f9 H- H, I0 C4 ?
1 t d* }, |) P( B3 j' A
https://www.pdawiki.com/forum/forum.php?mod=v ...

这个帖子里面的内容也还不错

https://www.pdawiki.com/forum/fo ... hlight=%D3%EF%C1%CF

linguee 查询可以加入到GD

goldmonkey · 发表于 2016-10-13 10:11:29

lxchen2001 发表于 2016-10-12 22:323 N2 l s. A P9 X# g& d
听VOA上面有2300多篇经济学人的，从2013开始! Y& O G$ O0 }5 ~* P

% I; j) E) {% W2 _" ~FT上面有很多双语文章。

cuyoo的网址非常有规律
http://www.cuyoo.com/article-*-1.html
就是这么简单。。。

我自己昨晚用beautifulsoup试了试
大概就是用soup.find_all(class_="vw visits")
就是会有些无用的信息（“路过雷人鲜花鸡蛋”这种），不过影响不大
但主要的问题这样提取出的文本全部都在一个段落里
那个帖子里的楼主也提到这个问题
他是这么说的：“试过用采集工具（spider/crawler 之类的工具）下载，下载后的文件无法实现段落对齐（就是一段英语，一段中文），最后改用监视剪贴板的树状笔记软件（keynote nf）手工复制收集而得”
手工显然太累了。。。
我不知道怎么处理才好

lxchen2001 · 发表于 2016-10-13 14:32:30

goldmonkey 发表于 2016-10-13 10:11
{4 J" |2 t6 {6 `) P' x. i( k5 ~cuyoo的网址非常有规律7 s8 M- C3 V" q+ `8 D
http://www.cuyoo.com/article-*-1.html( B/ `- u8 q& {# V
就是这么简单。。。

我自己没去抓取cuyoo的
1. 你可以用find('table', class_='vwtb')试试看这样抓取的应该就只是table里面的内容
2. 英文有etext* 中文有ctext* id 应该不需要手动调整直接可以分行

goldmonkey · 发表于 2016-10-13 15:57:50

lxchen2001 发表于 2016-10-13 14:32, f/ |. C4 [. a
我自己没去抓取cuyoo的
- L9 _ z2 w& x! f* c M1 l1. 你可以用find('table', class_='vwtb')试试看这样抓取的应该就只是table里 ...

不知道为什么抓出来的是英文在一起，中文在一起的

import requests
) Z7 {5 l0 |+ F2 o6 w2 ]" ^; y; V
from bs4 import BeautifulSoup' K5 T8 T. K5 S1 i$ G6 u
r=requests.get('http://www.cuyoo.com/article-30928-1.html')
7 {# A4 G3 ]2 _7 |9 b. I4 M
soup=BeautifulSoup(r.text,'lxml')
+ I1 L/ c4 o1 T0 O
tables=soup.find_all('td')7 y; X" \7 H. l, L) y( T. C
for table in tables:# s, m- Z% g' V: f
print(table.get_text())

复制代码

lxchen2001 · 发表于 2016-10-13 17:44:20

本帖最后由 lxchen2001 于 2016-10-13 18:15 编辑

goldmonkey 发表于 2016-10-13 15:57
9 c; c9 u! g: b( T) j$ q( d l9 v不知道为什么抓出来的是英文在一起，中文在一起的

我明白你的问题了。你想把文章一句句拆开。

网页HTML上文字是放在一起的，经过处理后才成为两个栏位的。所以光用bs是不够的。

goldmonkey · 发表于 2016-10-13 18:42:44

lxchen2001 发表于 2016-10-13 17:44" o3 p. f2 E/ o- ]8 e/ i3 e4 M% M& C
我明白你的问题了。你想把文章一句句拆开。+ ? i/ C: M: g0 @7 p
, X1 f2 X2 `, y) `) z2 E' u
网页HTML上文字是放在一起的，经过处理后才成为两个栏位 ...

这样应该可以了

import requests7 ^* |: E) T4 ?+ C, [: E0 K
from bs4 import BeautifulSoup& f9 S5 {1 {- ~2 N
r=requests.get('http://www.cuyoo.com/article-30928-1.html')% k' G0 ~" n% p( T4 s3 \; X5 }( Z
soup=BeautifulSoup(r.text,'lxml')
6 a) O+ b, b; U; I' x4 L* v: Y4 Q
en=soup.find(id='en')% N2 u d5 B2 V. d8 g: C! N1 V
enstring=en.strings2 x7 s$ A7 d! l6 l' p
cn=soup.find(id='cn')
+ ^0 B5 q$ c3 Q* M- }* |
cnstring=cn.strings
9 Z5 G' m; D& r
file=open('/30928.txt','w',encoding='utf-8')( T4 {9 M/ J! h
while True:
4 @ W) K" y# A* j( G
try:4 r9 G8 d# p3 {& z8 J5 n
ensentence=next(enstring)) E0 B$ l j+ p
#print(ensentence)% F4 N$ o% t1 u7 T8 R
file.write(ensentence)
6 U7 v1 J1 e) x0 |1 W2 w- i8 h5 {4 g
file.write('\n'). l% d2 x: I/ G5 D4 `' K4 r3 R
cnsentence=next(cnstring)7 h& K) c( O( I3 K# |
#print(cnsentence)6 j- p8 O) n+ A8 r: L) u. u
file.write(cnsentence)( P. [$ a8 M. m2 u( ?( I
file.write('\n')
* t" |" A, M1 d0 `' r
except StopIteration as e:% v m: {0 A+ y+ F# M! M
print('Finished')8 ~5 D; z0 P2 T# ]
break. `0 m+ a$ `% U; A$ z p
file.close()

复制代码

lxchen2001 · 发表于 2016-10-13 18:59:12

goldmonkey 发表于 2016-10-13 18:42
8 [* Y* S3 A2 m, m1 O: f这样应该可以了

很好用多交流

goldmonkey · 发表于 2016-10-13 19:13:37

lxchen2001 发表于 2016-10-13 18:59
: Y Z) W; F3 ]) f" j5 B很好用多交流

感觉写得太粗暴了。。。

看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

lxchen2001 · 发表于 2016-10-13 19:23:34

goldmonkey 发表于 2016-10-13 19:135 n; [3 }( |) V1 `1 s9 @
感觉写得太粗暴了。。。$ b4 x l$ @: o
% b* n1 x$ V. K7 g+ B; \+ o7 W
看到您说的我才意识到requests得到的和浏览器载入的源代码是不一样的

现在越来越多的网站会用一些技术来防爬虫

hao371269498 · 发表于 2016-10-14 19:05:04

http://novel.tingroom.com/shuangyu/ 这里有双语小说, 不知道有用不, 另外问一下各路大神, 还有没比较好的双语小说网站? 以及有没有什么好的英语有声书网站

lxchen2001 · 发表于 2016-10-15 01:01:11

本帖最后由 lxchen2001 于 2016-10-15 02:02 编辑

hao371269498 发表于 2016-10-14 19:054 I# q V) |: W9 x1 ~2 _& g( ]
http://novel.tingroom.com/shuangyu/ 这里有双语小说, 不知道有用不, 另外问一下各路大神, 还有没比较 ...

谢谢。这个网站的小说双语是按照章节来分的，不太好处理。最好一句或者一小段平行，就像cuyoo上面的文章那样的。

cuyoo上也有双语小说, 排版方式和tingroom差不多
24en.com的排版是可以2栏，但不平行
tingvoa有些小说是分小段平行

沪江 keke的格式相对比较喜欢，但是分成太多网页，也不是太方便

英语有声书：
免费的：
https://librivox.org/
http://www.openculture.com/freeaudiobooks

亚马逊收费的
audible.com 不少有名人配音

		自动登录	找回密码
密码			免费注册

[词典求助] 【求分享】英汉汉英双语平行资源

本帖子中包含更多资源