官方公告 - 火车采集器官方博客

这次又是谁动了你的物流数据？

作者：dong 发布于：2017-7-7 17:51 Friday 分类：官方公告

当我们网购一个产品后，从物流发货到物流配送完毕的这一过程里，你能想象有多少人（平台）掌握了你的物流信息吗？小采随便翻了翻手机，真的被大数据时代的数据乱象吓到了。我们火车采集器专注数据采集十年，客户曾送美誉“上采天，下采地”，却也从不越雷池半步，这些行业如此嚣张。

首先，卖家会系统地给你发短信：亲爱的xx小主，您购买的xx已通过xx物流配送，不日即可奔入您的怀抱。

~HCNU%PNHLHK6_E2[$Z6JA0.png

随后，电商平台自动更新了你的物流。

R(9D7C(R$Y3VWCY_$5I(_8C.png

过了两天，xx物流给你发来短信：您单号为xxxx的包裹正由xx物流的xxx为您配送，快递员联系电话13xxxxxxxxx。

81A`6OKBU77~M)){M)OJ40Q.png

再然后，支x宝好像怕你看不到似得，又在“我的快递”栏目里再次更新了一遍。

}1}3_H@LBTAXWI$RZB(6UYO.png

最后，快递柜或代收点给你发来信息：您的包裹已被自提柜/xx驿站代收，提取码xxxx。

GEZLUSK0EG`ONRDO4DAMN}X.png

so全程保驾护航，然而，我只是买了一瓶。。。（你猜）

所以给我的感觉是，不断地有陌生人发短信给我说，小采，我知道你最近买了一瓶。。。

然而我的物流信息不仅被快递公司采集，快递柜采集，电商平台采集，为什么连支x宝都可以随意采集？！

所以说，电商和支付平台是一家的就可以随意将信息打通共享咯？难道以后我们购买商品的时候，卖家还会额外推销点其他的，并说“这位亲亲，您还在犹豫什么呢，您支x宝里还有一万块的余额呢~“

“余额没钱？没钱不要紧，因为亲亲您的花呗额度还有九千咧~”

就这还不算完，因为连个人都可以随意采集我们的物流信息了。

何出此言？

大家有没有过类似的经历，你网购了一种产品之后，没几天就收到陌生的短信、电话、微信添加请求甚至是登门拜访，向你推销其他的类似产品？难道现在推荐已经从网页的”猜你喜欢“过渡到线下了吗？谁出卖了你？

是卖家？他们不会傻到把你的信息卖给竞品。

是物流公司？他们有时并不会知道你购买的是何种商品。

答案是物流数据，这支物流黑手大多来自地下产业链。

比如我是卖保健药品的，那我想要知道哪些人群经常购买这类保健品，这很容易，我在电商平台上下单购买一个同类产品，随后我就可以根据我的单号来做推算，很多时候我的上几单或下几单（单号末尾数字递增或递减），都是购买同一家商品的，于是我定期整理出一批单号，交给黑产业链，就可以坐收收件人的信息了，物流期间的所有环节都可能出现内鬼，很多单号信息叫卖仅需0.5元。

比如一个区县一级的快递公司中转机构能够掌握本区域近期所有的物流流转信息，在目前地下经济链条中对个人信息买卖明码实价的背景下，难免有人抵制不住诱惑。

更加狡猾又想省钱且不嫌麻烦的人则会采取这样的做法：根据之前收集的物流单号去查询到派件员电话（因为仅通过官网是查询不到收件人信息的，只能查询到大概的收货地址和派送员信息），主动联系派件员告知他这一单货物信息不匹配，自己才是收件人，那么出于信息核实，派送员会报出收件人的姓名、地址和电话，ok，你的目的达成了。（危险动作，请勿模仿）

真的很可怕。

所以通过很低的成本，甚至是0成本就可以知道你是谁，买了啥，电话号码。就像刚买了房必然会接到装修公司的电话，刚在医院生了娃，必然会有电话来推销母婴用品，婴儿保险一样，我们时常以为自己渺小到全世界都会忽略你，其实不是，全宇宙的骗子、推销员都可以一分钟内认识你的，只要你有钱。

这让小采想起了一首诗，从前的车马很慢，一生只够爱一人。现在的物流很快，一生可以骗很多人。

数据从一堆无人问津的乱码到如今身价倍增，初衷是帮助人们更好的认识这个世界，发现有益规律从而创造价值。

我们现在处在“有数据”与“用数据”的初步阶段，人们已经为它打起了架，也将它玩出了花，但是无论哪一个行业，打破了社会和谐定律，必然要付出惨痛代价，“管数据”已然刻不容缓。

评论(0) 引用(0) 浏览(14175)

各行各业的巨头最重视的数据是哪些？

作者：dong 发布于：2017-6-16 17:28 Friday 分类：官方公告

各行各业的巨头最重视、最具价值的数据是哪些？这里就和大神们分享一下，希望可以帮助大家规划采集，但是涉及隐私的数据请勿触碰，千万不要以身试法，不然会把自己或你们的老板坑进去待个3-7年，那……真的会错过很多数据的~

腾讯的用户及社交数据

再好的游戏或者应用，都会面临更新迭代，要想火的再久一点就必然离不开社交。QQ和微信，对接社交属性的游戏或应用的必经渠道，像是开心消消乐，王者荣耀，全民K歌，天天P图等哪一个可以离开社交持续活下去？

图片.png

这也是腾讯的核心价值所在，游戏做得好很关键，但强大的社交必会大大润色。来看看腾讯2017一季度的综合业绩：营收495.52亿元，期内盈利145.48亿元，也就是说平均每天1.6亿的利润！富可敌省呐，重点来了，其中收益大头还是来自网络游戏增值服务。

王健林说我们先定他一个亿的小目标，结果腾讯在中午下班前就完成了。

阿里的商家数据

阿里系有价值的数据太多，毕竟涉猎太广。但如果真要追本溯源，或许可以算得上是电商供应链数据，也就是大家常用火车头采集的商家数据（公开信息，非隐私数据）。交易数据姑且放到一边，因为众所周知，淘宝是电商开创平台，后来的同类平台做的再努力，也始终无法赶超淘宝庞大的供应体系，没有商家，那么用户的第一感觉就是，选择性小，果断放弃。这一点，看看拍拍网就很明显了。

豆瓣的评分数据

如果没有评分数据，豆瓣的用户会流失到哪里？想必是时光网（你也许会问，时光网是什么鬼？），因为豆瓣的优势在于点评的高参与度，但点评质量却被部分人士吐槽不如时光网专业。可专不专业对于一个单纯想看且还未看电影的人来说毕竟不好置评，于是这种情况下，人们总是会选择站队“人多势众”的一方，和人们选择淘宝放弃拍拍的理由一样，因为开创者豆瓣率先培养好了信息供应链。

图片.png

比如最近评分低到无下限的深夜食堂，小采一看豆瓣4万多人评分的结果才2.3分就果断放弃了，谁又会再去一一品味时光网的70条，哪怕很精致的剧评呢。

知乎优质的信息流

知乎是一个内容型的社区，而不是一个关系型的社区，与广场效应的微博不同，与社交属性的QQ空间也是不同的，所以用户数据其实不见得那么重要（当然也不是完全不重要），反而是内容组织上更有吸引力，所以虽然之前我们有大神抓取分析过知乎的用户画像，但也仅供娱乐而已，相比之下，火车头大神里抓取知乎问答内容的要更多一些。

采集.GIF

百度的搜索数据、定位

基于百度搜索的大数据呈现出来之后，就具备了挖掘、预测和关联的功能，凭数据而不是单纯凭经验来判断，这样的大数据思维让百度的价值更上一层楼。

百度定位数据则可感知用户线下移动行为，以此研究人群迁徙、商圈分析、商家选址、路线、导航挖掘等，像是每年春节的百度迁徙数据，就真实地反映了百度对大数据的掌握和技术处理运用能力。诸如出行、O2O、本地新闻阅读、基于位置的社交通讯等应用对定位数据都是刚需。

采集1.PNG

标签: 大数据火车头采集

评论(0) 引用(0) 浏览(18734)

可视化采集软件火车浏览器的逻辑相关操作

作者：dong 发布于：2016-9-23 17:48 Friday 分类：官方公告

可视化采集软件火车浏览器在编辑脚本的过程中需要对逻辑进行一系列设定，比如条件判断、循环、跳转、引用等，这里就对逻辑的具体操作简单讲解下，介绍自己的经验，希望帮助朋友们解决使用中遇到的问题。

图片1.png

条件判断有四种形式：1.条件判断：

1）当前页面源码

图片2.png 2）xpathhttp://bbs.locoyposter.com/post-21-1-1.html

图片3.png

在使用变量判断的时候，选择判断方式必须要选择相等。3）变量判断

4）使用代码片段

http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=75&extra=page%3D1%26filter%3Dtypeid%26typeid%3D5判断值是否大于某个值等类似的判断。具体使用方法：

2.循环：

图片5.png

1）在一个网址需要无限反复的采集或者填写的时候，可以使用到无限循环循环一般是稍复杂的脚本中都会用到，其功能是非常强大的。其中具体有以下几种：

2）点击固定元素：当需要重复点击同一个元素的时候，比如点击下一页，便可以使用此功能

3）点击一组固定元素：当需要依次点击页面中的一组元素时，用此功能。

4）点击指定的元素列表：将需要点击元素的xpath 放在一个list变量中，再选用此功能，就可以依次点击list变量中的xpath。

5）遍历list变量，需要访问的元素放在list变量中，然后使用循环去一一访问它，比如采集网页是，list变来那个中存放的是网址，那么循环遍历是，级那个每次比昂里的网址存放在一个文本型变量中，图示“保存至变量”步骤，设置一个变量来临时存储要访问的网址，然后将变量填入“打开网页”步骤的访问地址栏，这样就可以循环打开list变量中的网址.

6）从数据库中查询数据：使用sql语句，调用数据库的数据。与列同名的变量可直接调用该列中的数据，所以使用下面的保存至变量。具体使用方法：

http://bbs.locoyposter.com/post-222-1-1.html

7）循环执行次数：可以直接填写固定值或者使用计数器变量的值来控制循环次数。

3.跳转：跳转到其他步骤

图片6.png

5.结束循环：循环步骤结束4.跳出本次循环：跳出当前循环的步骤，进行下一个循环

提示（跳出循环与结束循环的区别）

跳出循环：比如有 5个数，当前循环到3，使用跳出循环，则不再进行循环3的步骤，跳出这个循环后从循环数字4开始再循环。

结束循环：同样有 5个数，当前循环到3 使用结束循环，则循环结束，不再进行下面数字的循环。

6.暂停等待：这个步骤用到会比较多，有些网页打开加载比较慢(比如登录时，页面跳转时)，就设置一个暂停等待的时间。等待的时间设置固定的时间，也可使用计数器变量或者随机时间。也可以使用网页中一个标志性的xpath，作为等待指定的元素，即网页中加载出这个元素后就进行下面的操作，比如一个网页中只需要进行写值时，就可以使用输入框xpath作为等待指定元素。

标签: 可视化采集软件火车浏览器

评论(0) 引用(0) 浏览(6662)

网页数据抓取之自动分类功能

作者：dong 发布于：2016-9-10 16:57 Saturday 分类：官方公告

我们在使用火车采集器进行数据抓取的时候，会需要将采集内容包含某个字段的所有内容都替换为某个固定的内容。使用场景如：我们从某网站上采集城市名称，然后城市名称示例为:浙江省杭州市，但我们需要将这个内容替换为杭州，这时就可以使用自动分类功能。

下面以百度为例介绍下用法，首先在火车采集器V9建立规则，内容采集规则的标签编辑如下：

如上图，我们想要将包含百度的标题内容更替换为“常用搜索网站”，则写成如下格式：

运行结果为：

上述就是数据抓取时将某字段所有内容自动分类的使用方法，在操作中还需要注意的是：

1、一行一个分类，可以写多个分类。若是一个关键词符合多个分类，则优先替换上面的分类，火车采集器中是按照从上至下的原则替换。

2、若是所有分类不符合的情况下，你想要将关键词赋予为一个默认值，按下图操作：

学会数据抓取的自动分类操作，对包含同类字段的内容进行分类就方便多了，大家也操作试试吧。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(8648)

网页抓取工具：企业竞争情报监控怎么玩？

作者：dong 发布于：2016-8-3 16:06 Wednesday 分类：官方公告

企业间的竞争情报是企业优化所需的一项重要数据，准确而及时的企业竞争情报往往能为企业带来许多优势。信息化竞争时代，企业竞争情报也显得愈发的重要。但信息时代在带来了大量数据的同时，也给信息处理带来了很大的难题——如何从浩如烟海的网络信息中找寻所需的竞争信息呢？

传统人工的检索、整理方法已不可取，海量的数据面前这些手动获取的小数据微不足道，毫无价值可言。竞争舆情监控效率低怎能产生效果？网页抓取工具可以智能化地解决这个问题，帮助企业人员用自动化的软件来操作庞大而繁杂的情报信息。

以下是情报监控的一些操作建议：

网页抓取工具火车采集器可以采集几乎所有网页中的任意数据，因此我们需要规划好数据来源：对于企业竞争情报而言，新闻、论坛、博客、贴吧、纸媒站点等都有着各种形式的竞争信息可供采集，企业人员可以根据所从事领域的舆论分布来选择。众多来源中信息肯定都是会实时更新的，而网页抓取工具火车采集器也能够凭借计划任务功能实现自动化地动态更新，以确保抓取信息的完整和时效性。

不同的来源系统需要不同的配置，灵活通用的火车采集器既能做到标准新闻的正文自动提取，也能提供多样的配置方式来适应复杂页面。根据不同的系统设定不同的采集方式，或根据不同的需要对某系统中特定的一些重要数据进行提取，例如关键词、新闻摘要、电话号码等。用最佳配置实施批量、高效的提取。

对已经获取的情报数据实施智能管理也是非常重要的，比如在使用网页抓取工具进行采集时，对于同一个URL，火车采集器仅采集最新的没有采集过的文章内容或回复，而对已经采集过的内容，则要自动忽略，同时采集到的地址或数据还需要进行一次自动排重，这样才能保证情报数据的准确性。

企业竞争情报信息量大且复杂，满足多来源通用、实时更新、排重抓取的网页抓取工具才能智能化解决情报监控的需求，随着信息技术的进一步发展，企业竞争情报监控也将更加智能和高效。

标签: 网页抓取工具火车采集器软件

评论(0) 引用(0) 浏览(6102)

1 2 3 4 5 6 7 ... »

火车采集器官方博客

发布关于火车采集器的最新消息,最新资源,最新活动

这次又是谁动了你的物流数据？

各行各业的巨头最重视的数据是哪些？

可视化采集软件火车浏览器的逻辑相关操作

网页数据抓取之自动分类功能

网页抓取工具：企业竞争情报监控怎么玩？

搜索

联系我们

联系电话

QQ邮件订阅

最新评论