火车采集器||采集电商网站网页源码中未显示的评论数据

作者:dong 发布于:2018-9-10 9:47 Monday

经常有朋友问小采,如何采集电商网站网页源码中不显示的评论数据,今天小采就教大家如何使用火车采集器采集京东的网页源码中看不到的数据。

需要用到的工具:fiddler抓包工具,火车采集器

采集网址:  京东网址

首先我们打开fiddler,本次使用的fiddler汉化版的,英文版的原理一样

然后我们打开对应的网站

这里面对应的商品评价

我们看此评价在源码中是否存在,复制下图的一些内容

此时这一页的数据我们在源码中没有找到对应的信息

我们开启fiddler刷新当前页面

此时会刷新出很多的请求信息,我们把fiddler关闭,用刚才在源码中查找的那一段文字在fiddler里面Ctrl+F查找一下

这里有突出信息说明要查找的信息在这个请求里面

 

可以看到在网络视图(对应英文版webview)里面有对应的一个信息,此时这个http请求就是我们想要的信息,这个源码就是实际评论的源码

 

我们将这个网址放进采集器里面测试采集一下

针对这个单一的网址进行测试,勾选循环匹配哦

 

再和浏览器打开页面对比一下

这里其实有图片,但是小采为了测试用html标签过滤掉了,此时获取的信息和浏览器的信息是一样的,没有做分页,分页可以通过抓取不同页面的数据包然后对比一下网址的区别,这样就可以采集到在源码中页面上未显示的评论数据了。

 

发表评论:

Powered by emlog