【教程】知乎采集规则分享

作者:dong 发布于:2018-9-19 10:39 Wednesday

苹果举办了Apple 2018秋季发布会

史上最贵的iPhone横空出世

售价高达12799元!

吓得小采

赶紧摸了摸肾还在不?

微信图片_20180919102351.jpg

其实么,有时候做个吃瓜群众挺好的

说到吃瓜群众就不得不谈谈大知了

今天我们就来探讨一下

如何采集知乎群众对“iPhone”的看法吧!

微信图片_20180919102458.jpg


第一步:在浏览器中打开知乎网站,然后登录知乎账号,登录后打开fiddler用于抓包,做好上述准备工作后。搜索你感兴趣的关键词,这次我们使用‘iphone’ 作为关键词,fiddler进行抓包。因为知乎是瀑布流形式的下一页,因此,我们再往下拖动瀑布流,抓取更多页的列表页。

图片1.png 

抓取数据如上图


第二步:接下来我们要分析,列表页地址在哪一个请求里面,找第一页的网址,然后在fiddler中进行搜索。找到包含地址的网址,然后记录下来。接下来找第二页中的网址,然后在fiddler中分析,

图片2.png 

可以看到我记录的网址分布规律:

图片3.png 

第一页地址,跟第二页第三页的格式分配规律不同,然后分析可以看到第二页第三页中变化的参数是offset,我们改变offset的值为零,可以看到源码中是有第一页中的内容的,所以我们用这个地址作为第一页的地址,然后再分析内容页地址。

知乎有两种类型的网页,我们取这种类型的网页:

图片4.png 

通过分析源码得到列表页提取规则如下:

图片5.png 


第三步:在内容页源码中找所需字段的前后代码,以内容字段的前后分析字段示例:

采集页面:

图片6.png 

源码示例:

图片7.png 

采集器设置:

图片8.png 

其余字段分析原理一致,不做赘述。

采集结果如下:

图片9.png 

此次编写需注意:

1. fiddler的熟练使用,可以参考教程:http://faq.locoy.com/q-1129.html


附件下载:
知乎.rar 915.42KB

发表评论:

Powered by emlog