【教程】知乎采集规则分享
作者:dong 发布于:2018-9-19 10:39 Wednesday
苹果举办了Apple 2018秋季发布会
史上最贵的iPhone横空出世
售价高达12799元!
吓得小采
赶紧摸了摸肾还在不?
其实么,有时候做个吃瓜群众挺好的
说到吃瓜群众就不得不谈谈大知了
今天我们就来探讨一下
如何采集知乎群众对“iPhone”的看法吧!
第一步:在浏览器中打开知乎网站,然后登录知乎账号,登录后打开fiddler用于抓包,做好上述准备工作后。搜索你感兴趣的关键词,这次我们使用‘iphone’ 作为关键词,fiddler进行抓包。因为知乎是瀑布流形式的下一页,因此,我们再往下拖动瀑布流,抓取更多页的列表页。
抓取数据如上图
第二步:接下来我们要分析,列表页地址在哪一个请求里面,找第一页的网址,然后在fiddler中进行搜索。找到包含地址的网址,然后记录下来。接下来找第二页中的网址,然后在fiddler中分析,
可以看到我记录的网址分布规律:
第一页地址,跟第二页第三页的格式分配规律不同,然后分析可以看到第二页第三页中变化的参数是offset,我们改变offset的值为零,可以看到源码中是有第一页中的内容的,所以我们用这个地址作为第一页的地址,然后再分析内容页地址。
知乎有两种类型的网页,我们取这种类型的网页:
通过分析源码得到列表页提取规则如下:
第三步:在内容页源码中找所需字段的前后代码,以内容字段的前后分析字段示例:
采集页面:
源码示例:
采集器设置:
其余字段分析原理一致,不做赘述。
采集结果如下:
此次编写需注意:
1. fiddler的熟练使用,可以参考教程:http://faq.locoy.com/q-1129.html
附件下载:
知乎.rar 915.42KB
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。
发表评论: