【教程】知乎采集规则分享

作者：dong 发布于：2018-9-19 10:39 Wednesday

苹果举办了Apple 2018秋季发布会

史上最贵的iPhone横空出世

售价高达12799元！

吓得小采

赶紧摸了摸肾还在不？

微信图片_20180919102351.jpg

其实么，有时候做个吃瓜群众挺好的

说到吃瓜群众就不得不谈谈大知了

今天我们就来探讨一下

如何采集知乎群众对“iPhone”的看法吧！

微信图片_20180919102458.jpg

第一步：在浏览器中打开知乎网站，然后登录知乎账号，登录后打开fiddler用于抓包，做好上述准备工作后。搜索你感兴趣的关键词，这次我们使用‘iphone’ 作为关键词，fiddler进行抓包。因为知乎是瀑布流形式的下一页，因此，我们再往下拖动瀑布流，抓取更多页的列表页。

图片1.png

抓取数据如上图

第二步：接下来我们要分析，列表页地址在哪一个请求里面，找第一页的网址，然后在fiddler中进行搜索。找到包含地址的网址，然后记录下来。接下来找第二页中的网址，然后在fiddler中分析，

图片2.png

可以看到我记录的网址分布规律：

图片3.png

第一页地址，跟第二页第三页的格式分配规律不同，然后分析可以看到第二页第三页中变化的参数是offset,我们改变offset的值为零，可以看到源码中是有第一页中的内容的，所以我们用这个地址作为第一页的地址，然后再分析内容页地址。

知乎有两种类型的网页，我们取这种类型的网页：

图片4.png

通过分析源码得到列表页提取规则如下：

图片5.png

第三步：在内容页源码中找所需字段的前后代码，以内容字段的前后分析字段示例：

采集页面：

图片6.png

源码示例：

图片7.png

采集器设置：

图片8.png

其余字段分析原理一致，不做赘述。

采集结果如下：

图片9.png

此次编写需注意：

1. fiddler的熟练使用，可以参考教程：http://faq.locoy.com/q-1129.html

附件下载：
知乎.rar 915.42KB

相关日志：

每周一数｜全国法院信息大数据限时免费赠送

"每周一数"全套资源领取方式

支付宝你已经是个成熟的APP了，该学会自己集五福了！

2019合肥乐维清明节放假通知

每周一数｜12万条环评信息数据免费送

« 【教程】途牛网采集规则分享 | 火车采集器：关于近期有人冒充我司名义行骗的严正声明»

发表评论：

火车采集器官方博客

发布关于火车采集器的最新消息,最新资源,最新活动

【教程】知乎采集规则分享

搜索

联系我们

联系电话

QQ邮件订阅

最新评论