号外:火车浏览器打码插件开源开放了

作者:小文 发布于:2016-5-26 9:09 Thursday 分类:官方公告

号外:火车浏览器打码插件开源开放了,优优云,若快,GSA,联众,云速打码,DeCaptcher全部开放,全部源码。开发者可以按示例迅速集成自己的打码平台。源码及开发注意事项请看附件

标签: 插件 浏览器

评论(0) 引用(0) 浏览(6096)

网站抓取精灵火车采集器的多页抓取教程

作者:dong 发布于:2016-5-24 10:02 Tuesday 分类:官方公告

    熟悉网站采集的朋友应该都知道,当我们要采集的信息不在当前默认页,而在当前默认页
某一个链接的所在页时,我们就需要用到多页地址管理,在火车采集器V9中多页管理的操作如下:

    我们以内容页网址 http://kimi201406.1688.com/page/creditdetail.htm 为例,来获取它的公司介绍和联系方式页面的联系方式信息。

    公司介绍在网址 http://kimi201406.1688.com/page/creditdetail.htm 里获取,而联系方式信息在网址http://kimi201406.1688.com/page/contactinfo.htm 里获取。所以我们需要借助多页功能来实现。前者叫默认页地址,后者叫做多页地址。

    流程:点击①创建多页,进行②多页设置,然后在数据来源③选择多页调用,最后根据多页源代码设置提取方式。

1@.png

   下面重点讲解,多页地址的两种获取方式:页面地址替换和源码中截取。

1.页面地址替换:也就是默认页和多页地址有相同的地方,通过简单的替换就可以变成多页地址。

    比较默认页“http://kimi201406.1688.com/page/creditdetail.htm”和多页地址:“http: //kimi201406.1688.com/page/contactinfo.htm”之间的共同点,可以发现默认页“creditdetail.htm”替换为“contactinfo.htm”就是我们的多页地址了。

设置如下图:

2@.png

注:正则表达式中 (.*) 为任意通配符。$1,$2$数字来按照顺序对应上面(.*)表示的部分。若要对多页源码部分区域做限定,可在指定多页源码区域设置。
若留空则默认返回多页整个源代码。设置好以后,点击测试查看结果即可。

2.源码中截取:也就是多页的地址在默认页的页面源代码里面。

如图,可以看到默认页源码中存在多页地址。

3@.png


所以设置如下:

4@.png

 测试后如正确则保存即可。最后设置数据来源和提取方式,如图:

5@.png

注:如需要多级多页,则在多页地址获取方式选择需要的多页即可

6@.png

  这两种获取方式大家掌握了吗,今后在抓取网站时使用火车采集器V9的上述操作就可以很容易地获取到关联的多页地址了,作为一款功能全面的网站抓取精灵,火车采集器一定会充分考虑到用户的使用需求,以及如何最大化实现便利。​


标签: 火车采集器V9 网站抓取精灵

评论(0) 引用(0) 浏览(5159)

网页抓取工具助力传统企业弯道超车

作者:dong 发布于:2016-5-20 12:00 Friday 分类:官方公告

经过2015年的股灾和经济动荡,2016年我国似乎又迎来了新一轮的经济下行,过去,中国以投资带动经济增长,但这种模式造成了我国产能过剩和经济泡沫,所以必须另找增长新动力。正处低谷的传统企业能否在这场转型阵痛中弯道超车、深化改革,值得市场期待。


拉动内需和消费潜力


综合2015年的外汇、股市、房产、消费等领域,消费俨然成为我国经济的最大寄望,政府提出要以内需和消费带动经济增长。尽管这种转型极难,持续期又长,但改革却不能延后,否则未来要付出的代价可能会更大,当下如何拉动内需和消费成为首要难题。


互联网推动,大数据挖掘


说到拉动内需和消费,中国政府今年共投资了1800亿美元来发展互联网,有助于推动网购,加上中国新兴中产阶级人数越来越多,消费力迅速扩张,2016年消费估计将有可观增长。对比消费占据GDP八成的美国,他们每个家庭都有着超前的消费观念。而要带动中国消费,就必须促进人们的消费意识,深入挖掘国人内需,在内需挖掘方面利用大数据或可充分施展拳脚。

blob.png

网页抓取工具让发展落地


促内需,增消费,说来轻松,对传统企业来说却并非易事,尤其对于中小型规模的企业,缺乏跨界融合的营销思维和市场适应性,也缺乏资金和大数据挖掘技术去完成这样的目标,以至于始终处在产业末链,甚至有被淘汰的风险,想要弯道超车难道只是空想?


网页抓取工具让这一切变得不那么遥远,从产品到服务到市场,无一不能寻求变通,而网页抓取工具——火车采集器就是帮助企业认识到哪些环节急需变通。那到底什么是网页抓取工具呢?它是一款网页公开数据的采集软件,用来获取和整合网页大数据(产品相关痕迹),比如产品销量、市场需求、竞品信息等。我们可以通过这些数据来寻求和支撑业务的转型,以传统中小型制造企业为例,产品口碑如何,哪里需要改进?采用市场调查耗时耗力,那就可以对网购平台的评价数据进行采集抓取,并汇总处理,从而得到产品的最佳升级方案。


同样对市场数据的采集,可以了解全网竞品的定价、营销活动等详情,做出市场营销、销售方式或服务模式的全面优化转型。对市场、产品、服务的把控是环环相扣的,网页抓取工具的盛行和互联网消费方式的丰富让这些数据的获取变得更加简单,也让基于网页数据的内需挖掘和消费促进变得更加切实可行。


现下的市场经济对转型要求迫切,低谷中的传统企业只有做对决策,选对新路才有可能弯道超车,取得全新突破。


标签: 网页抓取工具 大数据

评论(0) 引用(0) 浏览(3880)

网络爬虫火车浏览器的文件操作

作者:dong 发布于:2016-5-17 14:20 Tuesday 分类:官方公告

火车浏览器软件可以对文件进行一系列操作,比如保存内容、读取和删除文本、创建目录等,下面就对网络爬虫火车浏览器的文件操作部分进行讲解一下:
1、保存文本:保存内容到文本
    文本型变量中的值保存到文本中时,可以自定义内容格式模板以及分割方式,需要注意的是文件保存地址需要写成完整的路径,并且写出保存文本的名称。路径可以调用[软件运行目录],也可以直接写出绝对路径。
写入方式及编码需注意:
(1)若保存的文件为乱码,请更改文件编码。
(2)保存不同的变量类型,请保存不同的选项。
(3)追加文本以及覆盖文本的含义不同,请注意区分。追加文本是说原有的数据保存的基础上,再在原有的数据下面添加新的数据。覆盖文本的意思是将新的数据覆盖原有的数据,只保留新的数据。


2、文件操作的用法
(1)读取文本中的内容保存到变量中
    若文本中的内容是一条内容,比如是一篇文章,就直接保存至文本型变量即可,不要勾选“保存至list变量”;若文本中的内容有多条,比如有多个账号信息,并且每条账号之间用固定的分割方式分割,则选择或自定义相应的分割方式,并勾选保存至list变量,将文本中的内容保存至一个list变量中(不可勾选只读)。
注意:若是读取的数据保存至变量后,内容乱码,请更换文件编码。
(2)删除文本
    可删除用户指定路径下的文本。
(3)是否存在
    若是文件存在则返回1,不存在则返回0,结合条件判断后可以再做一系列的后续操作。
3、目录操作的用法

    用户可以选择不同的操作类型,进行创建、读取以及删除目录等操作。

    网络爬虫火车浏览器的文件操作内容大致如上所述,掌握火车浏览器可以帮助我们快速地完成采集或是群发等web操作,为我们的工作和生活带来极大便利!

评论(0) 引用(0) 浏览(5298)

网站抓取精灵火车采集器如何获取内容网址

作者:dong 发布于:2016-5-16 16:13 Monday 分类:官方公告

  我们在使用网站抓取精灵​做采集时,往往需要先从网页的初始网址开始获取内容页网址,那么火车采集器进入列表页后,如何进一步获取内容网址呢,下面就请新手们一起来看看内容页网址采集规则如何制作。
    在火车采集器V9中,内容网址获取有常规模式和高级模式两种。
    1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。它有两种方式:a.自动获取地址链接 b.手动设置规则获取。
    2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。即起始网址就是内容页网址;或者需要对多级列表网址采集才能得到最终内容页链接;或者是post网址类型抓取等情况下使用高级模式。
    这里详细说明下常规模式中a和b两种方式采集的具体操作,高级模式待后续讲解。
[常规模式]a.自动获取地址链接
     自动获取地址链接:自动获取该级列表页中所有的标签<a href="URL">内的URL链接。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

获取结果如图:

规则1.png

    根据统计我们可以看到,发现共计81个一级网址,但实际我们需要抓取的1级网址是每页40个,说明其中有我们不需要的链接,所以我们可以通过区域设置链接过滤,来筛选获取我们所需要的链接。用浏览器点击查看网页源代码,分析源码得出,所需链接应符合以下条件:
开始字符串为
<ul> 
结尾字符串为 <!-- 分页 begin -->

    我们将其填入设置区域,再进行测试一次,并查看结果。通过测试可以看出结果是正确的,如下图。

规则2.png

规则3.png


[常规模式]b.手动设置规则获取

    对于有些由脚本生成的网址,采集器不能自动识别,此时就要手动设置规则获取了。手动设置规则获取的原理是编写脚本规则,去和源代码里的内容匹配,获取到自己设置的参数即可。其中提取规则里的[参数]、(*) [标签:XXX] 都是通配符,可以统配任意字符,而区别在于[参数]有返回值,一般用于拼接地址,(*)没有返回值,[标签:XXX]有返回值,返回值给标签。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

有如下源码:

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部门责任清单 建立拒腐机制</a><span>(10月10日 20:20)</span></li>

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市长被举报建寺涉贪 与释延鲁关系密切</a><span>(10月10日 20:14)</span></li>

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">张家界国土局副局长涉严重违纪被查</a><span>(10月10日 19:45)</span></li>

    此时,我们可以取其中的一条代码作为循环匹配,把我们要获取的链接替换成[参数],需要采集到的值替换成标签。 如下填写提取规则:

    <li><a href="[参数]" target="_blank">[标签:标题]</a><span>([标签:时间]) </span></li>

规则4.png

 如上图,这样符合该格式的源码就会进行自动匹配,参数中获取到的就是内容页地址链接,标签中就分布是标题和时间了。

    到这里,网站抓取精灵火车采集器V9获取内容网址的常规模式设置就完成了,大家只要看过就会觉得比较简单,火车采集器V9软件需要大家多学习,这样上手就会非常容易了。

标签: 火车采集器V9 网站抓取精灵

评论(0) 引用(0) 浏览(6084)

Powered by emlog