dong - 火车采集器官方博客

数据抓取软件火车采集器如何导入TXT 、EXCEL数据

作者：dong 发布于：2016-6-3 11:22 Friday 分类：官方公告

在数据抓取软件火车采集器V9中，我们可以导入TXT/EXCEL数据，即导入本地已经存在的TXT或是Excel文件中的内容到火车采集器V9的数据库中，这些导入的数据可以用来在发布或其他的操作中使用。具体操作方式如下：

首先进入数据抓取软件火车采集器的工具菜单——批量任务处理——导入数据。

1、导入TXT，将需要导入的TXT放置到一个文件夹内，选择任务、文本/Excel目录、编码等。

火车采集1.png

注意：请确定原任务中有标题和内容2个标签！请确认文本编码。文本 “打开——另存为”可看到编码。TXT中ANSI编码对应gbk，TXT中utf-8编码对应utf-8,选择对应的编码即可。如下，导入成功。

火车采集2.png

2、导入EXCLE数据，将excel文件放置到一个文件夹内

火车采集3.png

注意：以上图为例，其中表格第一行字段，即为采集任务的标签。所以请确定原任务中含有姓名、性别、
    年级、价格这4个标签才能正确导入！

火车采集4.png

按照上面的示例，数据抓取软件火车采集器V9的TXT / EXCEL文件数据导入就完成了，操作还是非常简单的，那么接下来大家就可以用导入的数据来进行发布等个性化的操作了。

标签: 火车采集器V9 数据抓取软件

评论(0) 引用(0) 浏览(6562)

网页抓取工具：小数据要累积成大数据

作者：dong 发布于：2016-5-31 18:14 Tuesday 分类：官方公告

我知道现在有很多企业都在对大数据侃侃而谈，但正如我们看到的一样，他们也仅仅是谈论而已，拼命地想要靠近“大数据”，结果触到的都是幻影。说要搞大数据，其实连小数据都还没有。这让我想起了中国60年代的大跃进，企业竞争是没错，对外吹一吹，私下里也要探究是否切实可行。

大数据确实没那么简单，但如果能从小数据做起，或许也没有想象得那么难。在信息化的快速发展下，企业大多还是可以整合出一些小数据的，借助网页抓取工具火车采集器的自动化实施，小数据的获取难度降低了，至于小数据应该小到哪些方面则是企业需要一层层剖析和着重考虑的问题。

比如零售业，没有任何数据基础就想要获得一套精准定价、精准营销、精准服务的大数据管理体系，无异于痴人说梦。那数据基础从何而来呢？伴随互联网快速发展而崛起的公开网销平台就是重要的数据来源，对手的产品、定价、服务、评论等所有内容都是可以通过火车采集器快速抓取到的。在累积了市场需求和对手信息等全面的小数据之后，才能充分整合分析出企业适用的大数据业务体系。

再比如说保险行业，市场洞察可以来自对新浪、贴吧等社交网站中保险话题的偏好抓取；避免骗保发生可以综合抓取骗保案件的法院裁决书并匹配应对模型；利用保单和出险数据更加科学地设定各种费率。网页抓取工具火车采集器帮助保险行业整合小数据从而建立大数据基础，有助于推出更精准的产品，进行更精准地目标群推送。

火车采集器.jpg

网页抓取工具火车采集器尤其擅长抓取这种来自社会化的，或是网页结构化的小数据，并有强大易用的数据处理功能，让企业在不具备精力物力和专业技术团队的情况下，也能起步于大数据建设。

看似工程浩大的大数据集成，实则可以步步拆分，再做整合。发展大数据虽难一蹴而就，小数据却可以在网页抓取工具火车采集器的实施下轻松撷取。因此企业找到核心小数据才是最关键也最可行的，找到外围相关数据，像滚雪球一样慢慢去积累，去成长为大数据，只有这样才能做业务的延伸和应用。

标签: 火车采集器网页抓取工具

评论(0) 引用(0) 浏览(4112)

网络爬虫火车浏览器的元素操作之写值

作者：dong 发布于：2016-5-26 11:56 Thursday 分类：官方公告

本文就网络爬虫工具火车浏览器软件的元素操作“写值”的功能作详细的介绍，帮助大家更好的使用软件完成更多的复杂工作。

一、功能介绍

1.Xpath提取规则：其中写的内容是Xpath，使用火车浏览器中的标记元素标记你想要获取的目标位置便可。这种适用于简单的xpath，如果不能成功定位的话，请在火狐浏览器中安装附件组件后分析。（http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=14&highlight=%BB%F0%BA%FC）

2. ：在用标记元素获取所需位置的xpath时，页面中若有多个可以满足的Xpath，则其余Xpath便在此处显示。用户可以根据自己的需求选择合适的Xpath。

3.：Xpath中可以使用变量，这里可以选择你所建立的变量，需注意此处只支持文本型变量以及计数器变量。

4.备选提取规则：按一行一个Xpath的格式填写，当Xpath提取规则查找不到元素时，会使用备选提取规则中Xpath，从上之下，直至有可查找到内容的Xpath，则调用该Xpath。

5.索引：点击测试查找元素之后，索引中显示网页中共有几条相同的Xpath，在出现有多条索引的时候，则说明，Xpath可匹配多个位置。若索引处为灰色，则说明当前页面此Xpath为唯一。

6.随机选取：当页面中有多条相同的Xpath时，勾选此选项，运行时会随机选取一个Xpath。

7.输入文本：此处可使用变量，可使用多个变量。

8.输入方式：向输入框不同的属性中写值。具体选择哪一个需根据实际情况判断。

9.延时等待：等待事件执行完成。

10.写值前触发onclick事件：有些输入框触发条件是onclick点击事件，勾选便可在写值前触发此事件。

二、应用场景（特殊）

1.下拉框点击选值时，当这个下拉框是select-option类型的选择列表时，可以用写值来进行选择。例如：http://post.58.com/837/45/s5?PGTID=152522969188409405254865176&ClickID=1

此网站中的类别就是select-option类型

下面具体介绍操作流程：

（1）在火车浏览器中打开网址

（2）使用标记元素标记类别选择框，写值界面会变成：

如上图会出现获取列表框的值这个选项，点击该选项后，会弹出右边查看列表框的值，其中列表框的值与对应设置的值是左右一一对应的，你想要输入列表框的哪一个选项，就对应在输入文本框中输入对应设置中的哪一个值。若是勾选随机选取，则会随机选择一个设置。

注意：只有select-option类型的下拉框才会出现如图示的获取列表框的值。若是其他类型的下拉框则不适用，需另寻方法如直接写值或者模拟点击，具体根据实际情况定。

2. 使用写值方式来上传文件。

文件上传现在可以直接使用写值的方式上传文件，下面介绍下具体的用法：使用方法很简单，只要使用浏览器的标记元素获取上传路径的xpath,并在输入文本中写上完整的图片路径（可使用变量）即可，设置类似下图：

注意：

（1）目前只支持type=file,也就是不支持flash上传，后续开发支持。

（2）若是用浏览器的标记元素不能取到正确的路径，请在火狐中分析上传的路径，一般路径都是//input [@...]形式，需要注意的是Tag中需要手动填写：“input;file”。

（3）图片路径中请尽量避免使用中文，有可能会产生bug 。
（4）确保路径可以正确访问，否则会提示上传失败。

网络爬虫火车浏览器写值的操作示例大致就是这些了，大家还有不明白的可以联系官方客服为您解答。

标签: 火车浏览器网络爬虫工具

评论(0) 引用(0) 浏览(7432)

网站抓取精灵火车采集器的多页抓取教程

作者：dong 发布于：2016-5-24 10:02 Tuesday 分类：官方公告

    熟悉网站采集的朋友应该都知道，当我们要采集的信息不在当前默认页，而在当前默认页

某一个链接的所在页时，我们就需要用到多页地址管理，在火车采集器V9中多页管理的操作如下：

我们以内容页网址 http://kimi201406.1688.com/page/creditdetail.htm 为例，来获取它的公司介绍和联系方式页面的联系方式信息。

公司介绍在网址 http://kimi201406.1688.com/page/creditdetail.htm 里获取，而联系方式信息在网址http://kimi201406.1688.com/page/contactinfo.htm 里获取。所以我们需要借助多页功能来实现。前者叫默认页地址，后者叫做多页地址。

流程：点击①创建多页，进行②多页设置，然后在数据来源③选择多页调用，最后根据多页源代码设置提取方式。

1@.png

下面重点讲解②，多页地址的两种获取方式：页面地址替换和源码中截取。

1.页面地址替换：也就是默认页和多页地址有相同的地方，通过简单的替换就可以变成多页地址。

比较默认页“http://kimi201406.1688.com/page/creditdetail.htm”和多页地址：“http: //kimi201406.1688.com/page/contactinfo.htm”之间的共同点，可以发现默认页“creditdetail.htm”替换为“contactinfo.htm”就是我们的多页地址了。

设置如下图：

2@.png

注：正则表达式中 (.*) 为任意通配符。$1,$2…$数字来按照顺序对应上面(.*)表示的部分。若要对多页源码部分区域做限定，可在指定多页源码区域设置。
若留空则默认返回多页整个源代码。设置好以后，点击测试查看结果即可。

2.源码中截取：也就是多页的地址在默认页的页面源代码里面。

如图，可以看到默认页源码中存在多页地址。

3@.png

所以设置如下：

4@.png

测试后如正确则保存即可。最后设置数据来源和提取方式，如图：

5@.png

注：如需要多级多页，则在多页地址获取方式选择需要的多页即可

6@.png

这两种获取方式大家掌握了吗，今后在抓取网站时使用火车采集器V9的上述操作就可以很容易地获取到关联的多页地址了，作为一款功能全面的网站抓取精灵，火车采集器一定会充分考虑到用户的使用需求，以及如何最大化实现便利。

标签: 火车采集器V9 网站抓取精灵

评论(0) 引用(0) 浏览(5994)

网页抓取工具助力传统企业弯道超车

作者：dong 发布于：2016-5-20 12:00 Friday 分类：官方公告

经过2015年的股灾和经济动荡，2016年我国似乎又迎来了新一轮的经济下行，过去，中国以投资带动经济增长，但这种模式造成了我国产能过剩和经济泡沫，所以必须另找增长新动力。正处低谷的传统企业能否在这场转型阵痛中弯道超车、深化改革，值得市场期待。

拉动内需和消费潜力

综合2015年的外汇、股市、房产、消费等领域，消费俨然成为我国经济的最大寄望，政府提出要以内需和消费带动经济增长。尽管这种转型极难，持续期又长，但改革却不能延后，否则未来要付出的代价可能会更大，当下如何拉动内需和消费成为首要难题。

互联网推动，大数据挖掘

说到拉动内需和消费，中国政府今年共投资了1800亿美元来发展互联网，有助于推动网购，加上中国新兴中产阶级人数越来越多，消费力迅速扩张，2016年消费估计将有可观增长。对比消费占据GDP八成的美国，他们每个家庭都有着超前的消费观念。而要带动中国消费，就必须促进人们的消费意识，深入挖掘国人内需，在内需挖掘方面利用“大数据”或可充分施展拳脚。

网页抓取工具让发展落地

促内需，增消费，说来轻松，对传统企业来说却并非易事，尤其对于中小型规模的企业，缺乏跨界融合的营销思维和市场适应性，也缺乏资金和大数据挖掘技术去完成这样的目标，以至于始终处在产业末链，甚至有被淘汰的风险，想要弯道超车难道只是空想？

网页抓取工具让这一切变得不那么遥远，从产品到服务到市场，无一不能寻求变通，而网页抓取工具——火车采集器就是帮助企业认识到哪些环节急需变通。那到底什么是网页抓取工具呢？它是一款网页公开数据的采集软件，用来获取和整合网页大数据（产品相关痕迹），比如产品销量、市场需求、竞品信息等。我们可以通过这些数据来寻求和支撑业务的转型，以传统中小型制造企业为例，产品口碑如何，哪里需要改进？采用市场调查耗时耗力，那就可以对网购平台的评价数据进行采集抓取，并汇总处理，从而得到产品的最佳升级方案。

同样对市场数据的采集，可以了解全网竞品的定价、营销活动等详情，做出市场营销、销售方式或服务模式的全面优化转型。对市场、产品、服务的把控是环环相扣的，网页抓取工具的盛行和互联网消费方式的丰富让这些数据的获取变得更加简单，也让基于网页数据的内需挖掘和消费促进变得更加切实可行。

现下的市场经济对转型要求迫切，低谷中的传统企业只有做对决策，选对新路才有可能弯道超车，取得全新突破。

标签: 网页抓取工具大数据

评论(0) 引用(0) 浏览(4687)