dong - 火车采集器官方博客

网页抓取工具：帮助电子商务获取大数据财富

作者：dong 发布于：2016-7-21 15:26 Thursday

电子商务在交易的过程中，除了可以产生利润，产生的大数据也是一笔财富。无论是买家购买行为、兴趣及支付数据，还是卖家的经营、财务数据，都有助于企业发掘出更大的商业价值。

大数据是电商新财富

今年6月底发布的《中国电子商务报告(2015)》显示，2015年，中国电子商务交易额达到20.8万亿元，同比增长约27%。大规模的交易额背后，产生了庞大的数据量。

对此，咨询公司麦肯锡亚洲区负责人刘家明认为，电商的未来还有更大的增长空间，除了销售盈利，电商的另一个宝贵财富就是数据。“电商的交易产生了庞大的数据，通过大数据相关工具，就可以整合抓取并实时分析，企业可以用它更加了解客户，预测消费者在买什么，需要什么，这会让公司更好地针对目标客户销售和改进产品”。

电商的交易过程中会产生用户的真实信息，比如工作、居住地址信息，还有其银行卡对应的消费信息，包括了消费频次、消费金额、购物偏好、品牌偏好等，这些直接决定了一个人的消费能力，蕴含极大的商业价值。但目前最重要的问题是，电子商务商家往往还不具备从外部获取竞品数据的能力，对自身拥有的数据也缺乏整合或是处理的方法和技术。

网页抓取工具助力数据获取

在淘宝、京东等电商页面中，相似或竞品产品的商品属性（商品介绍、图片、价格、销量、评价）都可以通过网页抓取工具火车采集器来抓取收集，并可自动更新。网页抓取工具是能够自动采集网页数据的高效工具，同时也能够快捷地处理数据，在火车采集器中，除了自带的一系列排重、过滤等处理外，也提供插件

火车采集器0.jpg

资源以完成更加复杂的处理需求，对于非技术人员来说，不失为一个便捷好用的工具。

电子商务数据的利用价值

利用电商数据可以为商家降低物流、库存等成本，借助竞品的营销策略提升交易转化率，了解怎样更合理储备商品品类以及做好物流压力预判和处理，用最短的步骤推荐给用户最想买的物品，这样平台的利润也会随之提升。

如果还能够从外部渠道（比如数据定制、数据超市）获得电商交易数据，则能更容易地找到潜在用户，并有针对性地推荐产品。

当电商大数据遇上征信

在B2B式电子商务交易的过程中，买家与卖家就产品的质量和货款的交付方面存在很大的信用风险，这导致买家不敢轻易更换供货商，卖家压低发货效率，如有电商企业的信用大数据做支撑，可促进卖家的服务升级和买家的多元化选择。企多维征信查询正满足了这一需求，电商大数据遇上征信，双方合作大升级。

电子商务可以边交易边整合大数据新财富，借助大数据的新能力，一定能够带来业务的大幅提升。

标签: 火车采集器V9 大数据企多维企业征信

评论(0) 引用(0) 浏览(6387)

听说你的老板让你学会抓数据？

作者：dong 发布于：2016-7-13 14:14 Wednesday 分类：官方公告

看到有朋友给我们留言说，老板看我电脑玩的溜，就要求我半天学会火车采集器，不懂技术怎么入手？先别懵圈，毕竟叫你学采集器可比看你电脑玩的溜就让你负责维修电脑强多啦。

先说说你的老板为啥叫你学抓数据。大致就是以下三种可能：第一、对工作效率的提升需求促使人工操作转向工具智能，你的老板开始尝试更高效的渠道了。第二、没有数据支撑的业务似乎很难有新的突破，因此要全面收集数据谋发展。第三、各家公司都在整合大数据，再不试试就显的落伍了。

好吧，那接下来咱们就探索下，如何在半天时间内，完成老板的交代，把火车采集器也玩儿溜（带数字标注的蓝字，需要点进去学习哦~）。

火车采集器是一款网页抓取工具，即抓取网页中的网址、文字、图片等数据。那既然是工具就一定有它的工作原理，也有其专业术语，所以了解原理和术语①是基础，否则直接拿出来用肯定是觉得繁乱难。

原理：火车采集器的运行依赖源代码，就像音乐家需要五线谱，工程师需要图纸一样。它并不能一眼识别哪里是标题、哪里是正文，只能通过代码语言来识别和提取数据。比如<h1> 与 </h1> 之间的文本被显示为标题，<p> 与 </p> 之间的文本被显示为段落。（所以需要多学习源码②知识，了解所需数据的源码结构。）

了解原理和术语之后，我们不妨通过一个简单的例子③来完整的学习采集器的操作步骤。有了基本的操作了解，就可以下载采集器免费版参照着示例来练习几次，可以从最简单的文章采集着手，当我们已经掌握基础的抓取数据后，我们应该把数据如何保存呢？火车采集器可以将数据在线发布④到你的网站里，也可以保存发布在数据库⑤或本地文件⑥。

到这里，你已经掌握了采集简单网页的基本操作，而复杂网页则需要更多处理，比如登录、封IP、Ajax页面等，都可以通过帮助手册⑦来逐步规划学习，原理懂了，复杂的采集也能逐一攻克。在采集器官网中还有丰富的文字和视频教程，一定能帮你快速上手。如果需要商业版本的功能，则可以选择一个适合的版本，如何选择请看版本攻略⑧，或咨询官方客服。

呐，即使是技术小白，半天学会采集器的基本操作也是足够了的，有计算机基础的就更快啦，学会用火车采集器抓数据，你可就是公司的技术型人才，离升职加薪就不远咯~~

标签: 火车采集器

评论(0) 引用(0) 浏览(8060)

文章采集器采集规则和发布模块的对接

作者：dong 发布于：2016-7-6 15:21 Wednesday 分类：官方公告

对于网站维护人员来说，在配置完文章采集规则后，还需要配置发布模块，将采到的内容发布到网站中去。在线发布模块，就是文章采集器通过网站后台，发布文章，也就是将你手动在网站后台发布文章的整个过程包含登录网站后台，选择栏目，到发布文章，这些步骤都写到采集器里面，就是在线发布模块，然后规则采集到的值就通过标签名传递给在线发布模块，把数据提交到网站里去。

那么在我们常用的文章采集器即火车采集器V9中，要如何完成采集规则和发布模块的对接呢，新手朋友们请往下看。

采集规则.png

如果要选择发布到网站中，就选择Web在线发布，然后勾选已经设置过的WEB配置就可以了。（如果大家还没有掌握发布模块的制作可以参见网页抓取工具火车采集器发布模块制作示例。）

这里需要提醒大家注意的是：我们所设置的采集内容标签一定要和发布模块的标签个数以及名称都保持一致，否则会导致发布出错，如下图四个标签也对应四个同样的标签。

采集规则1.png

采集规则2.png

完成以后在任务列表中勾选采集、发布，然后点击开始即可运行。在默认情况下，火车采集器会把采集的数据先保存到自己的数据库，然后根据用户设置的发布配置，再从数据库里面读出数据通过发布配置把数据发布出去。

但我们也可以选择让采集器采集到的数据不保存到数据库，而是直接通过发布配置发布出去，也就是发布相关设置中的“边采集边发布”，发布时也可以选择正序倒序乱序等，主要看用户自己的使用需求了。

标签: 火车采集器V9 文章采集器

评论(0) 引用(0) 浏览(7960)

网页抓取工具：大数据岗位必备

作者：dong 发布于：2016-7-1 16:58 Friday 分类：官方公告

大数据行业的蓬勃发展，引发了各行各业对大数据岗位人才的强烈需求，如果你也想尝试高端的大数据岗位，那一定要具备以下技能，才能得心应手地完成工作指标。

大数据.jpg

一、基础开发

大数据的基础开发主要有数据抓取、数据处理和归类存储，对于海量的数据抓取而言，需要考虑的是抓取的实时性、准确性以及完整性，而对于数据处理和存储则主要是及时更新，排重过滤等。

在基础开发方面，通用的网页抓取工具火车采集器是必备工具之一。通过对网页架构的简单分析和规则的相关配置，火车采集器能确保采集高效稳定地进行，且自带强大的数据处理体系和多数据库发布存储的功能，帮助大数据的基础开发在一个工具中顺畅完成。

值得一提的是，火车采集器的智能化和自动化大大降低了操作人员对技术的要求，不再需要耗费大量精力去针对不同的网页写不同程序了，全网通用的网页抓取工具就可以轻松操作。

二、数据分析

数据分析师要对现有的数据进行统计分析，结合现有业务从中发现一些规律与趋势。那么数据分析报表是肯定需要的，当数据量一大，就会涉及在集群环境下的分析，这就要求分析师熟悉SQL，还需要对数据的有很强的解读能力，能分析和解读出一些现象产生的原因，同时需要针对这些问题，提出一些可能的应对方案，并通过分类、聚类和个性推荐等常用数据挖掘技术和算法，服务于业务系统，以便对业务策略或者商业方向上有更多的指导。

当然这还要求分析师具体丰富的专业知识，比如金融等领域的数据挖掘就需要有丰富的金融经验作为分析基础。

这里主要说的是两大方向的数据岗位，其实数据相关的细分职位是各种各样的，只有充分掌握其中的技能，才能高效地完成任务。从事大数据岗位，必须多学习工具、多去阅读，以适应快速变化的市场环境和行业需求。

评论(0) 引用(0) 浏览(7404)

抓取网页数据工具的内容获取方式

作者：dong 发布于：2016-6-28 17:02 Tuesday 分类：官方公告

抓取网页数据的工具火车采集器在获取内容时，需要对数据内容的标签进行编辑定义，在火车采集器V9中对数据内容标签进行编辑定义，从而获取数据的方法有三类：A).从源码中获取数据B).生成固定格式的数据C).已有标签组合，下面分别讲解下具体的含义。

A).从源码中获取数据：可精确地设置标签的来源是从默认页的源码、返回头信息和网页地址中，或者是分页、循环分块、多页中。其源码提取的方式包括：前后截取、正则提取、正文提取、Xpath提取，JSON 提取五种，后面详细示范。

B).生成固定格式的数据：可生成固定的字符串、系统时间、随机字符串、随机数字、系统时间戳，随机抽取信息。

C).已有标签组合：可通过组合已有的标签，来生成新的标签内容。

其中最常用的是从源码中获取数据，其对应的五种获取方式的操作如下：

A.a).前后截取

通过设置开始字符串和结束字符串，来获取中间的字符，可以在开始和结束字符串中设置通配符（*）。比如一段源代码为“<title>标题</title>”，那么其中的标题就是我们需要的内容，我们在火车采集器V9中写作：

火车采集器1.png

A.b).正则提取

支持两种正则，一个纯正则，一个参数正则。

先介绍纯正则，举个例子，如：前字符串 (?<content>[\s\S]*?)后字符串，这个正则其实效果跟前后截取一样，如需要获取全部代码，则为^(?<content>[\s\S]*?)$ ，此功能运用需有一定的正则基础。

关于参数正则，是通过参数组合，来生成内容。比如说要匹配标题为“新用户注册”和作者“神秘嘉宾”，代码如下：

<div>

<h2>新用户注册</h2>

设置如图：

火车采集器2.png

需要获取的字段用参数表示，不需要的字段或空格用星号代替；在组合结果里可以对多个参数进行组合。

A.c).正文提取

注意这种方式只适合格式较为规则的多文字数据提取，例如新闻文章。它不需要设置复杂的规则，
可智能分析提取文章正文，文章标题，以及发布时间。

火车采集器3.png

A.d).Xpath提取

通过Xpath表达式来获取数据，比如//div[@id=’content’]，就是获取id为content的div，可指定要获取html节点的属性，比如 Innerhtml、Outerhtml、Innertext、Href属性。（注意：这种有一定的局限性，对于部分html标签不规范的页面无法解析。）

A.e).JSON提取

通过对JSON形式的数据格式化操作，写表达式来获取其节点数据。这里大家需要注意JSON 是有两种结构，简单的说json就是javascript中的对象和数组，所以这两种结构就是对象和数组两种，通过这两种结构可以表示各种复杂的结构。具体操作另有教程抓取网页数据工具json提取示例讲解，感兴趣的朋友可以研究一下。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(13378)