文章采集器——火车采集器V9数据处理功能详解

作者:dong 发布于:2016-4-6 11:51 Wednesday 分类:官方公告

用过火车采集器的朋友都知道,火车采集器是所有文章采集器里数据处理功能最为全面的,也因此被用户誉为最经典的采集软件,这里为大家详细的介绍一下文章采集器——火车采集器V9十一项强大的数据处理功能。

什么是数据处理?在火车采集器中,数据处理是对从内容页面提取到的信息数据进行进一步的加工处理,譬如替换、过滤等,火车采集器中可以同时添加多个操作,多个操作是按照从上到下的顺序来执行。也就是说,上个步骤的结果会作为下个步骤的参数。下面依次说明:

001.png

1、提取内容为空:即如果提取内容为空,则使用正则匹配内容从原始页面中再次提取。
2、内容替换/排除:顾名思义,表示对采集到的内容进行字符串替换,如需排除,则替换为空字符串即可。

002.png




3
、html标签过滤:过滤指定html标签,比如<a ,<font 
4、字符截取:通过开始和结束字符串对内容进行截取
5、纯正则替换:通过强大的正则表达式进行复杂的内容替换。
6、数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化

003.png


7
、智能提取:包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码

004.png


8
、高级功能:包括自动摘要、自动分词、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,统计标签字符串长度等一系列功能。  



9
、补全单网址:将当前内容作为一个网址进行补全。
10、文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。

005.png

11、内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。

    我们采集文章时有了这十一项强大的数据处理功能,就能应对各类网站并将数据轻松处理成自己需要的形式,省时省力。火车采集器V9作为功能最全面的文章采集器,更够为我们的工作大幅提升效率,真正智能化的服务于用户。


标签: 火车采集器V9 文章采集器

评论(0) 引用(0) 浏览(3069)

抓取网页数据工具新增功能json提取示例

作者:dong 发布于:2016-3-31 15:24 Thursday 分类:官方公告

  使用过最新版火车采集器V9的朋友应该都发现V9新增了json提取的功能,但是许多使用抓取网页数据工具的朋友在操作此功能的时候都会觉得有点弄不明白,这里特意为大家整理了json提取的教程示例,感兴趣的朋友可以仔细研究一下。


  首先大家需要明白JSON 是有两种结构,简单的说json就是javascript中的对象和数组,所以这两种结构就是对象和数组两种,通过这两种结构可以表示各种复杂的结构。下面具体说明一下。


1、对象:对象在js中表示为“{}”括起来的内容,数据结构为 {keyvalue,keyvalue,...}的键值对的结构,在面向对象的语言中,key为对象的属性,value为属性值,所以很容易理解,取值方法为对象key 获取属性值value,这个属性值的类型可以是数字、字符串、数组、对象几种。


2、数组:数组在js中是中括号“[]”括起来的内容,数据结构为["java","javascript","vb",...],取值方式和所有语言中一样,使用索引获取,字段值的类型可以是 数字、字符串、数组、对象几种。


  经过对象、数组2种结构就可以组合成复杂的数据结构了。如下:

{ "name": "中国", "province": [{ "name": "黑龙江", "cities": { "city": ["哈尔滨", "大庆"] } }, { "name": "广东", "cities": { "city": ["广州", "深圳", "珠海"] } }, { "name": "台湾", "cities": { "city": ["台北", "高雄"] } }, { "name": "新疆", "cities": { "city": ["乌鲁木齐"] } }] }

    我们可以借助工具http://tool.oschina.net/codeformat/json 测试是否是JSON,格式化后如图:

001.png

  下面举例说明JSON提取的2种方式:

1JSON数据源:URL网址

  如我们需要对JSON网址http://car.interface.autohome.com.cn/dealer/LoadDealerPrice.ashx?_callback=LoadDealerPrice&type=1&seriesid=3170&city=340100 做采集

  分析得出:此URL的整个源代码是个完整的JSON 所以JSON数据源选择 URL网址然后勾选循环匹配,就可以采集到整个JSON里的数据。

如图:

002.png

003.png

2JSON数据源:JSON文本: 另外一种情况,网址里的源码不全是JSON,而只是一部分代码是JSON形式,此时我们需要提取出这段JSON文本,然后再格式化。例如网址 http://car.autohome.com.cn/config/series/3170.html

004.png

  所以我们需要通过多页的形式,来获取本页地址里这部分JSON代码,然后再设置JSON表达式。

005.png

如图:

006.png

  按照上面的步骤,两种JSON提取就完成了,广大用户朋友们是不是觉得简单又好用,所以抓取网页数据工具首选火车采集器V9,功能全面且易用,新手朋友们多多联系,一定能快速上手,如还有疑问或其他问题请随时联系官方客服为您解答哦!


标签: 火车采集器V9 抓取网页数据工具

评论(0) 引用(0) 浏览(13862)

网页抓取工具火车采集器V9灵活提速五大招

作者:dong 发布于:2016-3-25 10:58 Friday 分类:官方公告

网页抓取工具在互联网领域的应用已经是非常普遍了,但是许多朋友在使用的过程中都觉得速度不够快,或者不知道怎么提速,那针对目前使用人数最多的网页抓取工具火车采集器V9为大家支几招,大家可根据自己的使用情况对采集方案略作调整,看看是否能得到很好的效果~

第一招:调整采集线程和间隔时间


在编辑规则的其他设置中进行调整,如下图:


提速.png


这里是对采集内容和发布内容的设置,设置的时间单位是毫秒,1000毫秒为1秒,这个间隔时间大家根据需要来设置就可以了,线程数的设置也不是越多越好的,要多试几次找到采集量对应的最佳线程数。但是提醒大家,这里的设置对采集网址是不生效的。


第二招:换用高级数据库


    
我们可以选择使用较高级的数据库,比如sqlite、mysql等,尽量避免使用access,这样会对我们的速度提升有所帮助。本地保存数据库修改的方法这里就不细说了,如果不懂的话自行搜索下教程进行学习。


第三招:提高你采集所用电脑的配置和带宽


机器的配置和带宽肯定是会影响到采集速度的,这个就不用多说了,火车采集器使用最低的配置要求是:4G以上内存,i3以上的CPU,带宽速度至少能正常访问网页,硬盘根据大家的采集数据量适当等配置即可。


第四招:多个采集器同时采集,提高采集效率


    如果采集量很大,对时间要求又高的情况下,使用多个采集器同时运行也是较好的解决办法,当然了,需要不同的账号,一个账号是不能在多个机器登录的。


第五招:采集规则尽量最精简化


简单的规则运行起来自然就快,如果给加了很多冗余的步骤,那就像开车绕路一样。建议大家还是多练习练习,很快就能灵活的找到最简化的规则,节省采集时间。


大家按照上面的几种方法进行适当调整,一定能够看到我们利用网页抓取工具火车采集器V9进行采集或发布时速度的明显提升,网页抓取工具作为我们的工作利器,有很多灵活之处需要我们去挖掘,熟练上手后一定能大幅提升我们的工作效率。

标签: 网页抓取工具 火车采集器V9

评论(0) 引用(0) 浏览(4154)

网页抓取工具:大数据营销标配

作者:dong 发布于:2016-3-16 14:26 Wednesday 分类:官方公告

  近年来大数据的神秘色彩总是被越描越浓,它的魅力在所有领域所有行业都得到了快速地蔓延。尽管利用大数据来做营销也已经成为了营销界的共识,但如何快速准确地从数据的大海洋中获取到所需数据仍然是营销人员的短板所在,不过在了解了网页抓取工具之后,这个问题似乎就没那么让人苦恼了。


网页抓取工具火车采集器V9是能够从网页中提取所需信息并进行智能处理的一款软件,它的设计原理是基于web结构的源代码提取,所以几乎可以做到全网通用,全页面抓取,并且简单易用。这意味着只要是我们能够看到的网页中所有能够看到的信息都可以进行轻松抓取,解决大数据获取难题竟然可以这么简单。


网页抓取工具已经成为了大数据营销的标配工具之一。像是我们做电商营销,可以利用网页抓取工具火车采集器V9对竞品店铺中的商品标题、图片、价格、销量等信息数据进行准确抓取,再通过大数据模型分析,构建一套适用于自身业务模式的营销方案,比如标题优化、打造爆款、价格战略、服务调整等。


再如企业营销,以保险公司为例,同样可以利用网页抓取工具火车采集器V9对一系列相关数据进行抓取,筛选分析出精算、营销、投保等多个环节的统计数据,进行精准营销、精准定价、精准管理,精准服务。更加科学地设定各种费率;向客户提示保障不足的地方,筛选出最适合的保险产品和服务类型并向其精准推送。


网页抓取工具不仅可以为营销打下大数据基石,还能为营销推广提供自动化的发布,即火车采集器V9的多站群web发布功能。使用此功能可以通过配置站群后,一键发送到多个目标网站,比如论坛、QQ空间、博客、微博等,有了火车采集器V9不再需要繁琐的登录复制和粘贴了,营销省时省力,才能提升运营水平和工作效率。


大数据所呈现出的信息十分丰富,引领的营销方式也是多种多样,为了我们能够利用大数据更好的做好营销工作,推荐大家一定要掌握火车采集器V9这个经典的网页抓取工具,跟上时代的发展趋势,才能在大数据营销领域收获更多成果。


评论(1) 引用(0) 浏览(3237)

网页抓取工具秒抓“大数据”

作者:dong 发布于:2016-3-15 10:19 Tuesday 分类:官方公告

近两年,大数据在人们过分的吹捧中显得十分神秘,特别是一些中小企业往往把大数据的建设和应用想象得过于庞大,因此对大数据望而却步。这种假象在很大程度上掩盖了中小企业寻求业务发展的方向和依靠大数据来挖掘市场的机会。而网页抓取工具火车采集器V9则能够帮助我们轻松实现秒抓“大数据”,从而对其加以利用,支撑企业的大数据产业建设。

 

网页抓取工具火车采集器V9是什么?它是一款web网页数据的采集、挖掘、处理软件。Web作为一个无法量计的信息资源宝藏,隐匿着海量的价值数据,并且这些数据每分每秒都在以惊人的速度膨胀着,让我们难以快速掌握。比如潜在客户的信息,市场的动态变化信息,竞品的价格和销量数据等等,要获取这些大数据必须拥有强大的数据分析和抓取能力,这就需要用到网页抓取工具。

 

网页抓取工具火车采集器V9能够快速准确的在网页中通过源代码定位到所需信息并进行提取,所提取的网页数据支持文本、图片及其他的多种文件格式。除了提取对象格式多样化外,网页抓取工具火车采集器V9还可以确保在不同的网页中都能够做到高效和通用,并且响应时间小于0.1秒,所以我们称之为秒抓大数据一点也不为过。

 

网页抓取工具帮助我们快速的获取到大数据资源,进而通过一系列的处理和分析,呈现出可利用的高价值。有了网页抓取工具来抓取大数据,则能够为企业开拓新的业务发展方向做引导;为政府的大数据治理方案做决策;为科研单位高效完成信息的检索和收集,让他们有更多时间深入研究工作;为网店运营者提升经营水平和工作效率。

 

如果说大数据是帮助企业谋求时代突破的有力法宝,那么网页抓取工具火车采集器V9就是助力中小企业跃进市场竞争的利器。大数据时代是属于全人类的,大数据价值的挖掘机会同样属于全人类,所以即使那些数据巨头们手中的数据资源不会拿出来共享,中小企业也仍然可以好好利用网页抓取工具火车采集器V9这一利器,秒抓大数据,投身大数据事业的建设,未来的信息化竞争中能否把握住局势还要看各方的积极准备,尤其是能否重视起核心竞争力。

标签: 网页抓取工具 火车采集器V9

评论(0) 引用(0) 浏览(2974)

Powered by emlog