火车采集器官方博客

火车头开放平台QQ群正式成立

作者：小文发布于：2016-5-26 9:38 Thursday 分类：官方公告

火车采集器支持各种插件，还有http的api，还有开发SDK。火车浏览器支持各种打码平台，也有开发SDK。相关的文档及技术资料，有时开发者不能及时得到。为此，我们专门创建了该QQ群，及时为广大开发者服务。QQ群号 149855485

火车采集器V9.2起将支持Python插件

作者：小文发布于：2016-5-26 9:25 Thursday 分类：官方公告

除了支持PHP，C#插件，最近火车采集器终于又迎来了一个新的插件，Python插件。用户可以在自己的Python插件中，修改html代码，修改最终采集结果，可以实现更多自己的想法。python插件支持2.7和3.x版本，采集器默认自带2.7和3.4的示例代码，用户只需要稍微修改即可以完成自己的功能。Python插件功能将在V9.2版本中集成，马上就能和大家见面了。

更多插件及开发，请加QQ群火车头开放平台 149855485

以下是3.4的python插件示例代码

import sys,importlib
from urllib import parse
import json

if len(sys.argv)!= 5:
    print(len(sys.argv))
    print("命令行参数长度不为5")
    sys.exit()
else:
    LabelCookie = parse.unquote(sys.argv[1])
    LabelUrl = parse.unquote(sys.argv[2])
    #PageType为List,Content,Pages分别代表列表页，内容页，多页http请求处理，Save代表内容处理
    PageType=sys.argv[3]
    SerializerStr = parse.unquote(sys.argv[4])
    if (SerializerStr[0:2] != '''{"'''):
        file_object = open(SerializerStr)
        try:
            SerializerStr = file_object.read()
        finally:
            file_object.close()
    LabelArray = json.loads(SerializerStr)

#以下是用户编写代码区域
    if(PageType=="Save"):
        if(LabelArray['标题']):
            LabelArray['标题']='这是Python插件处理的标题'
    else:
        LabelArray['Html']='当前页面的网址为:'+ LabelUrl +"\r\n页面类型为:" + PageType + "\r\nCookies数据为:"+LabelCookie+"\r\n接收到的数据是:" + LabelArray['Html']


#以上是用户编写代码区域
    LabelArray = json.dumps(LabelArray)
    print(LabelArray)

标签: 插件 Python 采集器

评论(0) 引用(0) 浏览(7902)

号外：火车浏览器打码插件开源开放了

作者：小文发布于：2016-5-26 9:09 Thursday 分类：官方公告

号外：火车浏览器打码插件开源开放了，优优云，若快，GSA，联众，云速打码，DeCaptcher全部开放，全部源码。开发者可以按示例迅速集成自己的打码平台。源码及开发注意事项请看附件

标签: 插件浏览器

评论(0) 引用(0) 浏览(6847)

网站抓取精灵火车采集器的多页抓取教程

作者：dong 发布于：2016-5-24 10:02 Tuesday 分类：官方公告

    熟悉网站采集的朋友应该都知道，当我们要采集的信息不在当前默认页，而在当前默认页

某一个链接的所在页时，我们就需要用到多页地址管理，在火车采集器V9中多页管理的操作如下：

我们以内容页网址 http://kimi201406.1688.com/page/creditdetail.htm 为例，来获取它的公司介绍和联系方式页面的联系方式信息。

公司介绍在网址 http://kimi201406.1688.com/page/creditdetail.htm 里获取，而联系方式信息在网址http://kimi201406.1688.com/page/contactinfo.htm 里获取。所以我们需要借助多页功能来实现。前者叫默认页地址，后者叫做多页地址。

流程：点击①创建多页，进行②多页设置，然后在数据来源③选择多页调用，最后根据多页源代码设置提取方式。

1@.png

下面重点讲解②，多页地址的两种获取方式：页面地址替换和源码中截取。

1.页面地址替换：也就是默认页和多页地址有相同的地方，通过简单的替换就可以变成多页地址。

比较默认页“http://kimi201406.1688.com/page/creditdetail.htm”和多页地址：“http: //kimi201406.1688.com/page/contactinfo.htm”之间的共同点，可以发现默认页“creditdetail.htm”替换为“contactinfo.htm”就是我们的多页地址了。

设置如下图：

2@.png

注：正则表达式中 (.*) 为任意通配符。$1,$2…$数字来按照顺序对应上面(.*)表示的部分。若要对多页源码部分区域做限定，可在指定多页源码区域设置。
若留空则默认返回多页整个源代码。设置好以后，点击测试查看结果即可。

2.源码中截取：也就是多页的地址在默认页的页面源代码里面。

如图，可以看到默认页源码中存在多页地址。

3@.png

所以设置如下：

4@.png

测试后如正确则保存即可。最后设置数据来源和提取方式，如图：

5@.png

注：如需要多级多页，则在多页地址获取方式选择需要的多页即可

6@.png

这两种获取方式大家掌握了吗，今后在抓取网站时使用火车采集器V9的上述操作就可以很容易地获取到关联的多页地址了，作为一款功能全面的网站抓取精灵，火车采集器一定会充分考虑到用户的使用需求，以及如何最大化实现便利。

标签: 火车采集器V9 网站抓取精灵

评论(0) 引用(0) 浏览(5943)

网页抓取工具助力传统企业弯道超车

作者：dong 发布于：2016-5-20 12:00 Friday 分类：官方公告

经过2015年的股灾和经济动荡，2016年我国似乎又迎来了新一轮的经济下行，过去，中国以投资带动经济增长，但这种模式造成了我国产能过剩和经济泡沫，所以必须另找增长新动力。正处低谷的传统企业能否在这场转型阵痛中弯道超车、深化改革，值得市场期待。

拉动内需和消费潜力

综合2015年的外汇、股市、房产、消费等领域，消费俨然成为我国经济的最大寄望，政府提出要以内需和消费带动经济增长。尽管这种转型极难，持续期又长，但改革却不能延后，否则未来要付出的代价可能会更大，当下如何拉动内需和消费成为首要难题。

互联网推动，大数据挖掘

说到拉动内需和消费，中国政府今年共投资了1800亿美元来发展互联网，有助于推动网购，加上中国新兴中产阶级人数越来越多，消费力迅速扩张，2016年消费估计将有可观增长。对比消费占据GDP八成的美国，他们每个家庭都有着超前的消费观念。而要带动中国消费，就必须促进人们的消费意识，深入挖掘国人内需，在内需挖掘方面利用“大数据”或可充分施展拳脚。

网页抓取工具让发展落地

促内需，增消费，说来轻松，对传统企业来说却并非易事，尤其对于中小型规模的企业，缺乏跨界融合的营销思维和市场适应性，也缺乏资金和大数据挖掘技术去完成这样的目标，以至于始终处在产业末链，甚至有被淘汰的风险，想要弯道超车难道只是空想？

网页抓取工具让这一切变得不那么遥远，从产品到服务到市场，无一不能寻求变通，而网页抓取工具——火车采集器就是帮助企业认识到哪些环节急需变通。那到底什么是网页抓取工具呢？它是一款网页公开数据的采集软件，用来获取和整合网页大数据（产品相关痕迹），比如产品销量、市场需求、竞品信息等。我们可以通过这些数据来寻求和支撑业务的转型，以传统中小型制造企业为例，产品口碑如何，哪里需要改进？采用市场调查耗时耗力，那就可以对网购平台的评价数据进行采集抓取，并汇总处理，从而得到产品的最佳升级方案。

同样对市场数据的采集，可以了解全网竞品的定价、营销活动等详情，做出市场营销、销售方式或服务模式的全面优化转型。对市场、产品、服务的把控是环环相扣的，网页抓取工具的盛行和互联网消费方式的丰富让这些数据的获取变得更加简单，也让基于网页数据的内需挖掘和消费促进变得更加切实可行。

现下的市场经济对转型要求迫切，低谷中的传统企业只有做对决策，选对新路才有可能弯道超车，取得全新突破。

标签: 网页抓取工具大数据

评论(0) 引用(0) 浏览(4625)