: v5 Y- C0 R p. A: S
动态生成的内容,其数据一般是用json存储的,python可以解析json 2 i* L t9 M0 `7 J5 L# d2 z( K" T需要看一下网页脚本的处理逻辑,照着处理做就可以了 2 q6 M, \) R4 s6 p |* Y% q比如vocabulary.com的例句、word family,都是利用脚本动态生成的,抓到的数据就是json格式,可以参考相关python代码* E) G9 y$ r E% _" V
, C5 C o, q$ z5 i: D
我看到的网上流传最广的那基本关于爬虫的书,都是介绍模拟一个浏览器环境,执行js后再处理生成的字符。如果了解网站逻辑,知道链接都是怎么生成的,应该能找到对应的json,感觉json也就是对象映射到硬盘的序列化文件。很感谢您的指导,另外,网站一般都针对爬虫做了一些限制,感觉爬虫这东西真不好说是否是病毒,就看怎么用,客户端写的东西不做限制肯定被封ip迟早的事儿,目前我是根据root的txt文件做一些延迟,不过服务器这方面的txt交待的也都比较粗浅,然后修改个抱头啥的模拟个不同的浏览器,不过感觉道高一尺魔高一丈的事儿,我一个多少年都不搞开发的人拼这方面的技术实力肯定是拼不过一些大型网站,目前我做的事儿感觉也都是一些比较粗浅的手段,能摘下来东西但比较慢也不敢太快,不知道帮主您和群里的各位好汉都是怎么处理这方面的问题的?如果设置洋葱路由啥的可能还得需要一大堆肉鸡,这方面我感觉不太方便。。。