dong - 火车采集器官方博客

阿里系有价值的数据太多，毕竟涉猎太广。但如果真要追本溯源，或许可以算得上是电商供应链数据，也就是大家常用火车头采集的商家数据（公开信息，非隐私数据）。交易数据姑且放到一边，因为众所周知，淘宝是电商开创平台，后来的同类平台做的再努力，也始终无法赶超淘宝庞大的供应体系，没有商家，那么用户的第一感觉就是，选择性小，果断放弃。这一点，看看拍拍网就很明显了。

豆瓣的评分数据

如果没有评分数据，豆瓣的用户会流失到哪里？想必是时光网（你也许会问，时光网是什么鬼？），因为豆瓣的优势在于点评的高参与度，但点评质量却被部分人士吐槽不如时光网专业。可专不专业对于一个单纯想看且还未看电影的人来说毕竟不好置评，于是这种情况下，人们总是会选择站队“人多势众”的一方，和人们选择淘宝放弃拍拍的理由一样，因为开创者豆瓣率先培养好了信息供应链。

图片.png

比如最近评分低到无下限的深夜食堂，小采一看豆瓣4万多人评分的结果才2.3分就果断放弃了，谁又会再去一一品味时光网的70条，哪怕很精致的剧评呢。

知乎优质的信息流

知乎是一个内容型的社区，而不是一个关系型的社区，与广场效应的微博不同，与社交属性的QQ空间也是不同的，所以用户数据其实不见得那么重要（当然也不是完全不重要），反而是内容组织上更有吸引力，所以虽然之前我们有大神抓取分析过知乎的用户画像，但也仅供娱乐而已，相比之下，火车头大神里抓取知乎问答内容的要更多一些。

采集.GIF

百度的搜索数据、定位

基于百度搜索的大数据呈现出来之后，就具备了挖掘、预测和关联的功能，凭数据而不是单纯凭经验来判断，这样的大数据思维让百度的价值更上一层楼。

百度定位数据则可感知用户线下移动行为，以此研究人群迁徙、商圈分析、商家选址、路线、导航挖掘等，像是每年春节的百度迁徙数据，就真实地反映了百度对大数据的掌握和技术处理运用能力。诸如出行、O2O、本地新闻阅读、基于位置的社交通讯等应用对定位数据都是刚需。

采集1.PNG

标签: 大数据火车头采集

评论(0) 引用(0) 浏览(21404)

火车采集器V9起始网址页即为内容页和标签循环采集功能使用

作者：dong 发布于：2017-4-19 14:39 Wednesday

今天给大家分享财富网股票业绩预告信息采集规则。今天的规则相对比较简单，但简单中又有技巧，

比如看到这个图的规则，会不会晕呢，怎么就标点符号和通配符呢？今天的规则主要使用了起始网址页即为内容页和标签循环采集功能，下方案例讲解为大家详细说明。

【案例讲解】
今天主要讲解起始网址页即为内容页和标签循环采集功能，其他略过！

我们要采集的网址：http://data.eastmoney.com/bbsj/201703/yjyg.html

如上图，我们需要采集表格中的信息。

底部有分页，总共29页，发现点击分页，网址并无变化，那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址，如下图：

通过抓包我们找到了有我们需要的数据的页面地址，我们将网址复制出来，参照下图：

通过网址规则分析到分页的参数变量，一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了，找到变量规则后，我就可可以通过网址分页规则进行设置，共29页，如下图：

通过抓包软件，我们看到我们所要采的数据就在抓取的分页中，就并不需要再采集内容页，我们要的内容就在起始网址页中，那么我们就需要使用火车采集器的起始网址就是内容页网址，我们点击“点击设置”，如下图：

点击出现下图，是灰色的，不能进行任何设置，因为我们不需要设置采集内容页网址了，所以这里不操作。

直接进入内容采集规则设置界面，如下图，因为我们需要采的内容是表格内容并且都在一个页面上，所以我们需要使用循环采集，所以设置标签的时候，每个标签都要将循环匹配√选上。（每个标签的内容采集规则这里不多说，大家可以下载规则自行测试学习，其实还是有一定的小技巧的）

网页上的表格数据，一行一条信息，所以我们采集下来也是需要一行一条信息，那在左侧下方的循环设置中我们要进行设置，改为“添加新记录”，这样我们采集的信息就会一行一条，否则所有信息将堆积在一起，只有一条信息。参照下图：

设置好后我们进行测试，出现下图即为设置成功

另外讲下，在采集该页面信息进行循环时，发现第一条信息和其他信息的规则不一样，经过分析，只能循环采集每页的除第一条的其他信息。那这应该怎么办？这个没有更好的方法，页面数据规则太过简单，无法找到一个能够匹配所有信息的规则，解决方法只有一个笨方法，但是也是唯一可以解决此问题的。那就是先循环采集所有信息，然后再设一个规则只针对第一条信息，再采一次最后合并。这里分享的规则不能采集到第一条信息，大家可以按照我的思路去尝试采集第一条信息。