又一个百度百科制作工具。

发哥 · 发表于 2008-10-15 16:22:39

如果不想要图片和链接的可以用我瞎写的ruby脚本。:lol
max代表最大号，min是最小，从1开始，每天想处理多少就处理多少,也可以放到服务器上全部处理成一个文件。
低网速情况的代码

require 'rubygems'
* Z, ]5 ^4 Z$ ~ |% d! Y
require 'hpricot'
3 s1 k! t3 E1 H/ o) f4 V
require 'open-uri'
$ r( {4 b, c# g3 |6 n* ~
max=200
& l* U% ?. ]- P2 p# \5 I9 K" {
min=1! o6 c/ U( k/ g7 z% {
dic=File.open("baidudic#{min}-#{max}.txt","a")
* U6 P; m# X$ p4 G+ h
while min<max+1 do ) \4 S N# y4 j. f4 x1 w5 J
url = "http://baike.baidu.com/view/#{min}.htm"* n) Z9 y8 O/ m" U& y
puts "#{url}"
/ [( e( g# y$ s. G( }# i, a$ ?" q
doc= Hpricot(open(url))
! Y# d! ]( ^4 O
title0= (doc/:title).inner_html
" T; B$ e& f- _6 z8 ~9 R; |
title=title0.split('_'); p, c, c7 u$ O4 K" E
content= (doc/"#lemmaContent").inner_html
' @0 b; Y, t& {! o) H3 \. @
temp=content.gsub(/<\/?[^>]*>/, "")$ z* h( S! }* k' b
temp=temp.gsub(/编辑本段/, "")
- n& ~- A7 w6 u
dic.puts title[0]
4 ], N/ P4 ]# @
dic.puts "原文链接:#{url}"0 A/ x* q9 l: M+ ]
dic.puts temp) j6 Y, y0 B/ A w" N
dic.puts "</>"
1 _. C0 D3 G/ m- b% t
puts "OK"- o, H% w4 D+ {3 Q
min=min+1/ V ?2 U: |- Y. K' s1 G4 Y: S& {
end7 q5 [" R$ V1 R8 v
dic.close
& E3 I% V3 a2 J) M: U1 V* n

复制代码

高网速情况的代码

! s. X" u5 ?1 }% j, L0 t
# baidubaike 2 mdict by daming9 J7 Z! E0 [$ Y5 K. m4 X( Y
# [email protected]" j( s( ~! I: K) D& e$ F1 x. {6 B
require 'rubygems'; k, s# w& J! _1 ^
require 'hpricot'4 l d% E. |5 z3 y1 e+ _
require 'pathname'" Z2 e z" v2 r; F! C4 T8 ^
require 'fileutils'1 o- q9 g7 J |0 \4 U
require 'open-uri'
- V# f7 G0 g0 F' w
Maxn=20- r7 M5 o2 J6 r4 L& I
max=1006 X1 C% D5 P+ h6 s
min=16 Z( v- f- Y) A3 {1 G0 E. o" M( u2 O
dic=File.open("baidudic#{min}-#{Maxn*max}.txt","a")
. H6 u2 ^, T; B2 f$ k3 m, f
for j in 0..(Maxn-1) do
u# V% _! k/ s# S7 V* f
FileUtils.makedirs("temp")* T% B9 @, m2 r: d# G7 S! `
i=min7 y8 T, P- ?- i# I
while i<max+1 do
! o0 J, T- k! G" q) H8 X, O, T
url = "http://baike.baidu.com/view/#{i+j*max}.htm"
" }, @" Y% Y& P0 ]2 G6 r3 T
puts "#{url}"
5 f& D- w6 J9 J0 D" t
data=open(url){|f|f.read} Q- O+ c$ }! h/ f! A8 _9 R/ r
open("temp\\#{i}.htm","wb"){|f|f.write(data)}
8 N$ K1 S4 Y( g! h) q: W
puts "download"
) d7 z8 x& s* u7 Q
i=i+1/ S$ p& b1 ^9 H; J( d! U
end
- d' Q' h8 I) P( Q2 F1 `6 y
i=min; E0 C. z6 Y$ _* |* Q
while i<max+1 do
& k8 ?4 l' x0 v2 |7 z
puts "#{url}"# L |/ m% ^1 t ]
url = "http://baike.baidu.com/view/#{i+j*max}.htm"' s* S; [+ ?) O# H5 o* V, ?
doc = open("temp\\#{i}.htm") { |f| Hpricot(f) }! Y0 m/ O. O1 J% J
title0= (doc/:title).inner_html
8 P: q' R5 n8 g( C1 o
title=title0.split('_')! N& W( N- \# I. g: q" i2 ?# a
content= (doc/"#lemmaContent").inner_html
( ^4 c+ L9 t: ~8 D* M& h
temp=content.gsub(/<\/?[^>]*>/, "")& L" z1 m. y' E$ i7 L0 H
temp=temp.gsub(/编辑本段/, "")) n8 z2 T9 G4 m, u6 a
dic.puts title[0]" X+ }$ L& Q1 l7 B* |6 e
dic.puts "原文链接:#{url}"
0 @5 A& c1 T- Q$ Y! D
dic.puts temp
( h. r( q/ d1 O; V
dic.puts "</>"
7 U5 V" K8 z! Y3 H2 J* I$ k3 E
puts "converted"
6 n- T2 w- P$ C
i=i+1
F, b1 x# ~5 E8 S. P
end6 }& {$ r; c n" e. m% O3 E
dir = Pathname.new("temp")
7 [2 ^$ [& n" Q; P
dir.rmtree
, {9 w# s) W9 m# E
puts "cache cleaned"7 p+ ^4 } Y6 u
end/ ]4 k( `0 @+ z, U1 c- {% _/ d2 T
dic.close
* y# g# k* j- f4 }( z3 k: \

复制代码

windows上ruby地址
http://rubyforge.org/frs/download.php/29263/ruby186-26.exe
linux这个不是问题

一次不要开多个窗口，百度会封

[ 本帖最后由发哥于 2008-10-15 21:12 编辑 ]

ldlcau · 发表于 2008-10-15 17:03:49

不错，谢谢楼主
快速下载时，速度大约超过200个/分钟，百度就会封锁ip 10分钟。

我对ruby不是太了解.
看楼主程序用意显示为下载百度数据，过滤html标签，转为txt,保存为txt文件。

haoyang2007 · 发表于 2008-10-15 17:14:10

不太明白，还是要对发哥的辛苦劳动说声谢谢！

发哥 · 发表于 2008-10-15 20:01:16

就是把这个代码另存为xxx.rb
安装ruby解析程序
需要几个下几个。就指定下几个。

发哥 · 发表于 2008-10-15 20:06:33

更新了一个，下一些转一些。

[ 本帖最后由发哥于 2008-10-15 21:08 编辑 ]

发哥 · 发表于 2008-10-16 11:14:29

第二个在服务器上刷刷到12128的时候被封了一会儿。

显示全部楼层 · 发表于 2008-10-17 00:12:47

发哥可以加上限速的功能吗？

发哥 · 发表于 2008-10-17 10:43:49

貌似openuri没有这个功能，因为http协议本身就没有状态，而且文件太小，速度肯定无法达到满速。
要限速用外部程序下载吧比如：
wget -i http://baike.baidu.com/view/1.htm -limit-rate=50k

显示全部楼层 · 发表于 2008-10-18 20:27:53

原帖由发哥于 2008-10-17 10:43 发表
0 `5 T. z: l7 B7 E2 A5 t" k5 h( W: B貌似openuri没有这个功能，因为http协议本身就没有状态，而且文件太小，速度肯定无法达到满速。
9 u) v# I2 S7 L. t9 o要限速用外部程序下载吧比如： k9 {4 f7 Q6 t# I! {' h
wget -i http://baike.baidu.com/view/1.htm -limit-rate=50k

:L 发哥，教教我吧．

发哥 · 发表于 2008-10-19 03:33:49

不好意思，发错参数了。。
wget --limit-rate=50k http://baike.baidu.com/view/1.htm
批量下为1 2 3 需要写bat脚本
以下是循环100次的。

) I$ V8 T) ` N" @) g$ f7 Y2 e
@echo off
:loop# w, d- y6 ?( K" L. A5 v3 p) z
cls
4 f) |1 j G, O8 K
set /a num+=1
+ e6 t. I; q5 p7 C8 \: Q0 s0 v( c
if %num%==101 (
% E) q; g, d/ e8 q( B5 m
goto exit
& s+ {( F8 p9 b& C/ z
)$ c) i$ T0 D; c* J- U6 x5 q, `+ O* C
echo %num%.htm8 p$ e: \9 T$ [9 \
wget --limit-rate=50k http://baike.baidu.com/view/%num%.htm7 \% {/ g' ] i& H- ]
goto loop
7 ?# a* ^( E/ j% ]" e6 O
:exit$ r% q, i3 Q3 [$ ^+ k

复制代码

ruby脚本把第一个修改一下。。

可以用本版版主老大的php采集的方法，是最上道的。后台全是微软干，不需要你弄。

[ 本帖最后由发哥于 2008-10-19 03:36 编辑 ]

发哥 · 发表于 2008-10-19 03:41:24

其实我还写了一个分页处理程序，初衷是做baidu百科精选词条的。

可惜baidu的观礼员太懒，至今只推荐了5k个。应该让管理员打他PP了。:lol

显示全部楼层 · 发表于 2008-10-19 11:16:14

还是弄不懂．试了下用teleport pro，不会用；用迅雷太慢了．并且现在还找不到那个DSL complier:L

发哥 · 发表于 2008-10-19 15:33:08

你就用这个么
https://pdawiki.com/forum/thread-883-1-1.html

显示全部楼层 · 发表于 2008-10-19 17:05:43

慢慢消化一下．:)

显示全部楼层 · 发表于 2008-10-20 09:47:37

看来我的水平还是玩不转这个了:L ．各位大大可以把你们采到的TXT原始文件放到网上吗？或有没有工具把mdx转回TXT的?

ldlcau · 发表于 2008-10-21 08:46:22

不知道你要TXT原始文件用来做什么。
原始文件有近3个G，直接操作处理都很麻烦。

显示全部楼层 · 发表于 2008-10-21 20:49:23

我用你教的wget在采了，但abbyy lingvo的编译器的容错性很差，整理非法字符，处理过长的段把我搞得头都大了，前10000条（采下来有4000多是空的）只能成功了2700多条:Q

发哥 · 发表于 2008-10-22 14:34:46

把那个ruby装上。
用这个脚本处理试试成功率

; X) W5 @- ^4 G8 r( k+ }2 g
require 'rubygems'
; L! A5 S+ n1 L* y1 C' k
require 'hpricot'& u/ ?8 P% _. C, N! v4 i
require 'open-uri'9 U7 P6 c/ l* g( X/ p
max=200& N4 j2 P5 E) i% f( F( a$ e$ }
min=1
' M0 X& B% |. ~, ^, z- a
dic=File.open("baidudic#{min}-#{max}.txt","a")
) s3 }$ s, T- @3 {5 _9 I" t
while min<max+1 do" p- d, U3 {' a& g4 o9 |
url = "#{min}.htm"
; `0 r" M1 v! y$ S W( ]* {5 T; L. _
puts "#{url}"6 p- g- w0 A- m" K* _! @
filetemp=File.open(url)
7 Y8 K# F! \$ Y# g( n9 p$ O% C
doc= Hpricot(filetemp)
( i4 y, n$ M+ X4 N
title0= (doc/:title).inner_html
2 o# T! B4 d7 a, o1 B
title=title0.split('_')
# ` z! n2 i+ @, B- r
content= (doc/"#lemmaContent").inner_html
! Z* ~+ X4 L+ J6 N9 i4 W* _9 h
temp=content.gsub(/<\/?[^>]*>/, "")# i1 C& j2 l( U$ a" ^
temp=temp.gsub(/编辑本段/, ""); ~/ `* g% X c: J
dic.puts title[0]: R6 _; E) \0 A# y" o# O
dic.puts "原文链接:#{url}"4 M& j$ o+ R) [: [4 a# U) u
dic.puts temp
1 |0 g9 o8 G/ b2 G+ j
dic.puts "</>") ?2 g$ Y- k3 D! d8 w
puts "OK"
' d4 d% `% n6 K' K/ R0 C ^
min=min+1
5 _, ^# I# w5 _) X' B0 m
filetemp.close2 |# J0 m: s& x6 z |
end
P$ y4 q! L! T. \6 w9 X; M* D
dic.close) F3 x, e3 \0 [5 [0 ?8 P E

复制代码

[ 本帖最后由发哥于 2008-10-22 14:39 编辑 ]

发哥 · 发表于 2008-10-22 14:53:29

abbyy的没用过。。
貌似是这样的格式吧
name
[m1]xxxx
xxxx
[/m]

$ O1 Y4 g4 X7 L4 c
require 'rubygems'
8 P% z' f4 f3 p: Z! N7 |+ @2 W* D
require 'hpricot'6 ?) r. d7 x# g4 U' m2 u+ m: ^
require 'open-uri'
3 F3 d& r& z% P- F
max=200- t5 W& c: x5 t& B8 y2 c
min=1( U1 j+ K- i9 X- x- d( e
dic=File.open("baidudic#{min}-#{max}.txt","a")! U9 C% p5 X# Z) u0 b
while min<max+1 do
; A; w" g. |- ^ [1 P
url = "#{min}.htm"/ @! ]* C6 [2 L% x( ]* c3 l
puts "#{url}"
! `( ^. _/ H. K9 M/ O2 u' N/ b
filetemp=File.open(url)
, w8 t v# Q; n' n2 Q
doc= Hpricot(filetemp) v. Z2 {; F: Y8 [8 w
title0= (doc/:title).inner_html
8 H4 C; f- J* F
title=title0.split('_')
6 y h5 { s4 b$ \! X/ {# T5 Y
content= (doc/"#lemmaContent").inner_html
0 x( g& Y3 i1 |# I
temp=content.gsub(/<\/?[^>]*>/, "")
* K, K4 M) c% v& M& H& x( M& z: }
temp=temp.gsub(/编辑本段/, "")! V0 [; t! d% W! n* V
dic.puts title[0]& i8 }8 H0 [' o6 \( ^
dic.puts "[m1]"
; [6 y" O3 ]# M" k
dic.puts "原文链接:#{url}"
% ?6 i* d7 U: m- S2 F
dic.puts temp
$ I6 U# w& i- v1 |& @
dic.puts "[/m]"* s1 @; p: g5 u7 w7 e! `! {- k7 t
puts "OK"% Z" n9 {; G* A( Z
min=min+19 |4 ?& s$ n& F C( G( g! {
filetemp.close
$ k' v8 z5 u# ?6 \
end
/ u/ u$ o. w7 W/ V
dic.close& \% `7 b' f; T" m! x

复制代码

有没有词条长度说明请都回复帖子。。我试试，我也不熟。

显示全部楼层 · 发表于 2008-11-4 16:57:50

不好意思，现在才回帖。
abbyy的格式是这样的：

词条名1
“tab缩进”[trn]词条正文
“tab缩进”词条正文
........
“tab缩进”词条正文[/trn]
词条名2
“tab缩进”[trn]词条正文
“tab缩进”词条正文
........
（tab）词条正文[/trn]

每行的词条有长度限制，具体大概为300字符（150汉字）
[ ]\{*#为控制字符，如果要在内容中使用，就前面加\，如\[，\\，\]。

[ 本帖最后由好友营于 2008-11-4 16:59 编辑 ]

pplang · 发表于 2008-11-13 01:22:08

一个人开太快太多就会被封一段时间,把这个工作分成多份,让比较可靠的高级别用户一起来做这件事可能会方便些.不会让一个人落入地狱,不会让更新变慢....
发起者开帖子,设立分段,参加者报名加入,每人每星期运行一次程序,开几千个页面,一个人可申请多个段以增加效率,结果反馈给发起者,发起者整合输出.发起者负责管理,如参加者要求退出或者没完成任务,管理者对分段重新分配.
发起者最好提供FTP空间给上传者临时使用.
程序最好是VBS(Windows下用),又可编辑又可运行,每分钟开20个页面然后暂停,这样几小时之内应该都不会被封.这种强度对机器也没什么影响,完全可以全天运行,10小时就是12000条....这样大家分段不重复,还可以"同时"进行,提高些效率.
程序可以附带一个INI,保存本段参数,不同参与者下载不同的Ini(网页Java生成也好)或者手动设置,配合程序自动完成分段的任务,最好结果能自动上传到发起者的邮箱:).......

[ 本帖最后由 pplang 于 2008-11-13 01:33 编辑 ]

		自动登录	找回密码
密码			免费注册

[工具] 又一个百度百科制作工具。

评分

相关帖子

回复 3楼 haoyang2007 的帖子

回复 2楼 ldlcau 的帖子

回复 7楼好友营的帖子

本帖子中包含更多资源

支持,应该建立网格让大家一起出力加速更新

[工具] 又一个百度百科制作工具。

评分

相关帖子

回复 3楼 haoyang2007 的帖子

回复 2楼 ldlcau 的帖子

回复 7楼 好友营 的帖子

本帖子中包含更多资源

支持,应该建立网格让大家一起出力加速更新

回复 7楼好友营的帖子