瀑布流 - 火车采集器官方博客

花瓣网—瀑布流数据采集思路详解

作者：dong 发布于：2018-4-2 17:48 Monday

上一期我们讲了如何利用火车采集器采集手机app中的数据信息，小伙伴们不知道看完之后有没有自己手操一遍呢？小采在后台整理留言发现，很多采友都对网站瀑布流数据采集的思路不甚了解，所以今天我们就向大家介绍一下关于网站瀑布流数据的采集思路吧。

瀑布流，又称瀑布流式布局。是比较流行的一种网站页面布局。

视觉表现为参差不齐的多栏布局，随着页面滚动条向下滚动，这种布局还会不断加载数据块并附加至当前尾部。

用户一眼扫过的快速阅读模式可以在短时间内获得更多的信息量,而瀑布流里懒加载模式又避免了用户鼠标点击的翻页操作。

错落有致，定宽而不定高的设计让页面区别于传统的矩阵式图片布局模式，巧妙的利用视觉层级，视线的任意流动又缓解了视觉疲劳，同时给人以不拘一格的感觉。

切中年轻一族的个性化心理。所以这种页面布局在现今饱受欢迎。

那么如何采集瀑布流数据呢？

今天我们以花瓣网为例，向大家解说一下：

花瓣网—瀑布流数据采集思路

1. 拿到网页后，分析网页的形式，得出网页为瀑布流形式，需要通过FIDDLER抓包获取真实地址

修改下LIMIT参数为200，这样采集器可以获取200个列表页。

2. 编写网址采集规则

3. 获取列表页后，设置内容采集规则

图片采集用到了商业版的功能，内容添加前后缀。

注意事项：这个网页使用瀑布流形式，需要抓包获取真实地址

抓包工具小伙伴们可以自行百度下载安装，操作很简单。

好了，不知道小伙伴们有没有看懂呢？不管会不会，回去点开火车采集器先跟着教程做一遍吧。实际操作之后，你就会发现原来瀑布数据采集并没有想象中的那么难。