数据抓取软件火车采集器如何导入TXT 、EXCEL数据

作者:dong 发布于:2016-6-3 11:22 Friday 分类:官方公告

数据抓取软件火车采集器V9中,我们可以导入TXT/EXCEL数据,即导入本地已经存在的TXT或是Excel文件中的内容到火车采集器V9的数据库中,这些导入的数据可以用来在发布或其他的操作中使用。具体操作方式如下:

首先进入数据抓取软件火车采集器的工具菜单——批量任务处理——导入数据。

1、导入TXT,将需要导入的TXT放置到一个文件夹内,选择任务、文本/Excel目录、编码等。

火车采集1.png

注意:请确定原任务中有标题和内容2个标签!请确认文本编码。文本 “打开——另存为”可看到编码。TXT中ANSI编码对应gbk,TXT中utf-8编码对应utf-8,选择对应的编码即可。如下,导入成功。

火车采集2.png

2、导入EXCLE数据,将excel文件放置到一个文件夹内

火车采集3.png

注意:以上图为例,其中表格第一行字段,即为采集任务的标签。所以请确定原任务中含有姓名、性别、
    年级、价格这4个标签才能正确导入!

火车采集4.png

    按照上面的示例,数据抓取软件火车采集器V9的TXT / EXCEL文件数据导入就完成了,操作还是非常简单的,那么接下来大家就可以用导入的数据来进行发布等个性化的操作了。


标签: 火车采集器V9 数据抓取软件

评论(0) 引用(0) 浏览(4976)

网页抓取工具:小数据要累积成大数据

作者:dong 发布于:2016-5-31 18:14 Tuesday 分类:官方公告

我知道现在有很多企业都在对大数据侃侃而谈,但正如我们看到的一样,他们也仅仅是谈论而已,拼命地想要靠近“大数据”,结果触到的都是幻影。说要搞大数据,其实连小数据都还没有。这让我想起了中国60年代的大跃进,企业竞争是没错,对外吹一吹,私下里也要探究是否切实可行。

大数据确实没那么简单,但如果能从小数据做起,或许也没有想象得那么难。在信息化的快速发展下,企业大多还是可以整合出一些小数据的,借助网页抓取工具火车采集器的自动化实施,小数据的获取难度降低了,至于小数据应该小到哪些方面则是企业需要一层层剖析和着重考虑的问题。

dashuju.jpg

比如零售业,没有任何数据基础就想要获得一套精准定价、精准营销、精准服务的大数据管理体系,无异于痴人说梦。那数据基础从何而来呢?伴随互联网快速发展而崛起的公开网销平台就是重要的数据来源,对手的产品、定价、服务、评论等所有内容都是可以通过火车采集器快速抓取到的。在累积了市场需求和对手信息等全面的小数据之后,才能充分整合分析出企业适用的大数据业务体系。

再比如说保险行业,市场洞察可以来自对新浪、贴吧等社交网站中保险话题的偏好抓取;避免骗保发生可以综合抓取骗保案件的法院裁决书并匹配应对模型;利用保单和出险数据更加科学地设定各种费率。网页抓取工具火车采集器帮助保险行业整合小数据从而建立大数据基础,有助于推出更精准的产品,进行更精准地目标群推送。

火车采集器.jpg

网页抓取工具火车采集器尤其擅长抓取这种来自社会化的,或是网页结构化的小数据,并有强大易用的数据处理功能,让企业在不具备精力物力和专业技术团队的情况下,也能起步于大数据建设。

看似工程浩大的大数据集成,实则可以步步拆分,再做整合。发展大数据虽难一蹴而就,小数据却可以在网页抓取工具火车采集器的实施下轻松撷取。因此企业找到核心小数据才是最关键也最可行的,找到外围相关数据,像滚雪球一样慢慢去积累,去成长为大数据,只有这样才能做业务的延伸和应用。

标签: 火车采集器 网页抓取工具

评论(0) 引用(0) 浏览(2885)

网络爬虫火车浏览器的元素操作之写值

作者:dong 发布于:2016-5-26 11:56 Thursday 分类:官方公告

本文就网络爬虫工具火车浏览器软件的元素操作“写值”的功能作详细的介绍,帮助大家更好的使用软件完成更多的复杂工作。

 

一、功能介绍

1.Xpath提取规则:其中写的内容是Xpath,使用火车浏览器中的标记元素8.png标记你想要获取的目标位置便可。这种适用于简单的xpath,如果不能成功定位的话,请在火狐浏览器中安装附件组件后分析。(http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=14&highlight=%BB%F0%BA%FC

 

2. 1a.png:在用标记元素获取所需位置的xpath时,页面中若有多个可以满足的Xpath,则其余Xpath便在此处显示。用户可以根据自己的需求选择合适的Xpath

3.6a.pngXpath中可以使用变量,这里可以选择你所建立的变量,需注意此处只支持文本型变量以及计数器变量。

4.备选提取规则:按一行一个Xpath的格式填写,当Xpath提取规则查找不到元素时,会使用备选提取规则中Xpath,从上之下,直至有可查找到内容的Xpath,则调用该Xpath

5.索引:点击测试查找元素之后,索引中显示网页中共有几条相同的Xpath,在出现有多条索引的时候,则说明,Xpath可匹配多个位置。若索引处为灰色,则说明当前页面此Xpath为唯一。

6.随机选取:当页面中有多条相同的Xpath时,勾选此选项,运行时会随机选取一个Xpath

7.输入文本:此处可使用变量,可使用多个变量。

8.输入方式:向输入框不同的属性中写值。具体选择哪一个需根据 实际情况判断。

9.延时等待:等待事件执行完成。

10.写值前触发onclick事件:有些输入框触发条件是onclick点击事件,勾选便可在写值前触发此事件。

二、应用场景(特殊)

1.下拉框点击选值时,当这个下拉框是select-option类型的选择列表时,可以用写值来进行选择。 例如:http://post.58.com/837/45/s5?PGTID=152522969188409405254865176&ClickID=1

此网站中的类别就是select-option类型

2a.png

下面具体介绍操作流程:

1)在火车浏览器中打开网址

2)使用标记元素标记类别选择框,写值界面会变成:

3a.png

 如上图会出现获取列表框的值这个选项,点击该选项后,会弹出右边查看列表框的值,其中列表框的值与对应设置的值是左右一一对应的,你想要输入列表框的哪一个选项,就对应在输入文本框中输入对应设置中的哪一个值。若是勾选随机选取,则会随机选择一个设置。

注意:只有select-option类型的下拉框才会出现如图示的获取列表框的值。若是其他类型的下拉框则不适用,需另寻方法如直接写值或者模拟点击,具体根据实际情况定。

2. 使用写值方式来上传文件。

文件上传现在可以直接使用写值的方式上传文件,下面介绍下具体的用法:使用方法很简单,只要使用浏览器的标记元素获取上传路径的xpath,并在输入文本中写上完整的图片路径(可使用变量)即可,设置类似下图:


4a.png
注意:

   (1)目前只支持type=file,也就是不支持flash上传,后续开发支持。

   (2)若是用浏览器的标记元素不能取到正确的路径,请在火狐中分析上传的路径,一般路径都是//input [@...]形式,需要注意的是Tag中需要手动填写:“input;file”。

   (3)图片路径中请尽量避免使用中文,有可能会产生bug 。
   (4)确保路径可以正确访问,否则会提示上传失败。

    网络爬虫火车浏览器写值的操作示例大致就是这些了,大家还有不明白的可以联系官方客服为您解答。


标签: 火车浏览器 网络爬虫工具

评论(0) 引用(0) 浏览(5517)

火车头开放平台QQ群正式成立

作者:小文 发布于:2016-5-26 9:38 Thursday 分类:官方公告

火车采集器支持各种插件,还有http的api,还有开发SDK。火车浏览器支持各种打码平台,也有开发SDK。相关的文档及技术资料,有时开发者不能及时得到。为此,我们专门创建了该QQ群,及时为广大开发者服务。QQ群号 149855485

标签: QQ群 开放平台

评论(0) 引用(0) 浏览(9011)

火车采集器V9.2起将支持Python插件

作者:小文 发布于:2016-5-26 9:25 Thursday 分类:官方公告

除了支持PHP,C#插件,最近火车采集器终于又迎来了一个新的插件,Python插件。用户可以在自己的Python插件中,修改html代码,修改最终采集结果,可以实现更多自己的想法。python插件支持2.7和3.x版本,采集器默认自带2.7和3.4的示例代码,用户只需要稍微修改即可以完成自己的功能。Python插件功能将在V9.2版本中集成,马上就能和大家见面了。

更多插件及开发,请加QQ群 火车头开放平台 149855485

 

以下是3.4的python插件示例代码

 

import sys,importlib
from urllib import parse
import json

if len(sys.argv)!= 5:
    print(len(sys.argv))
    print("命令行参数长度不为5")
    sys.exit()
else:
    LabelCookie = parse.unquote(sys.argv[1])
    LabelUrl = parse.unquote(sys.argv[2])
    #PageType为List,Content,Pages分别代表列表页,内容页,多页http请求处理,Save代表内容处理
    PageType=sys.argv[3]
    SerializerStr = parse.unquote(sys.argv[4])
    if (SerializerStr[0:2] != '''{"'''):
        file_object = open(SerializerStr)
        try:
            SerializerStr = file_object.read()
        finally:
            file_object.close()
    LabelArray = json.loads(SerializerStr)

#以下是用户编写代码区域
    if(PageType=="Save"):
        if(LabelArray['标题']):
            LabelArray['标题']='这是Python插件处理的标题'
    else:
        LabelArray['Html']='当前页面的网址为:'+ LabelUrl +"\r\n页面类型为:" + PageType + "\r\nCookies数据为:"+LabelCookie+"\r\n接收到的数据是:" + LabelArray['Html']
       

#以上是用户编写代码区域
    LabelArray = json.dumps(LabelArray)
    print(LabelArray)

标签: 插件 Python 采集器

评论(0) 引用(0) 浏览(5531)

Powered by emlog