火车采集器V7V8版本无法登录的解决办法

作者:小文 发布于:2016-5-12 23:28 Thursday 分类:官方公告

非常抱歉,因为原V7V8版本验证服务器失效和故障,部分朋友无法登录软件。出现这种情况,请下载本文附件包,解压其中对应版本中的文件,替换掉System文件夹中对应文件,然后重新登录即可。点击下载更新包

火车采集器官方网站上所有完整包也更新完成,可以下载使用

标签: 登录

评论(4) 引用(0) 浏览(4118)

网页抓取工具:火车采集器V9版免费下载

作者:dong 发布于:2015-10-28 9:39 Wednesday 分类:官方公告

网页抓取工具火车采集器历经十年的更新迭代,在20159月推出了V9版本。火车采集器V9经过前期数月的认真筹备和大家的积极公测终于完美的上线了,相对之前的版本,V9的多项优化受到了大家的关注与好评。无论是从性能上还是功能上,V9都是非常值得体验的。也期待广大用户们继续提出宝贵的建议,我们会将火车采集器越做越好!

下载地址:http://file.locoy.com/v9/LocoySpider_V9.0_Build20150917.rar


vv9.jpg


一起看看V9都有哪些亮点吧~

  在UI设计上:

Ø V9一改V8的单一灰色界面,采用了与OfficeWindows相匹配的多种可选界面风格,用户可依据个人偏好进行设置;               

Ø 常用设置提至菜单界面中直观显示,使用更方便。

 

  系统方面:

Ø V9采用AnyCPU X64位开发,更好兼容32位及64位系统

Ø 使用了九年的.NET2.0框架在V9中升级到.NET4.0框架;

Ø 支持最新的Win10系统中运行
在功能操作上:

新增:

Ø 二级代理服务器新增Socks代理

Ø 任务运行过程中可修改线程数等参数,实时调节运行速度,添加可查看任务运行当前及总体速度功能

Ø 支持SSH(SFTP文件)上传

Ø 内容提取新增JSON提取方式,提取JSON数据更加简单

Ø 插件编辑器新增C#源码文件插件,类似PHP源码插件一样,编辑后直接生效,但比PHP源码插件支持更多的插件接口

Ø 软件闪退,支持保存未完成的任务进度

Ø 新增消息机制

  修改:

Ø V9将采网址和采内容的方式合并,列表采集及内容采集使用不同队列,优化采集流程,更新数据内容的方式由Update改为insert,大幅提升采集及入库速度;

Ø 任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计

Ø 修改原有的无限级列表页网址获取模式,使无限级配置操作更加简单

Ø 字段重复性对比功能不再使用数据库unique方式,改为内存Md5_16对比,更加精准;

Ø 标签数据来源更细致化,可设置从默认页分页多页的源码URL地址及返回头信息中提取

主要优化部分就是上面这些啦,看完之后是不是觉得V9很炫酷,那就果断更新升级吧,还在服务年限内的用户免费升级到V9哦!

扫码关注微信

标签: 网页抓取工具 火车采集器V9

评论(8) 引用(0) 浏览(7665)

可视化采集软件火车浏览器的逻辑相关操作

作者:dong 发布于:2016-9-23 17:48 Friday 分类:官方公告

可视化采集软件火车浏览器​在编辑脚本的过程中需要对逻辑进行一系列设定,比如条件判断、循环、跳转、引用等,这里就对逻辑的具体操作简单讲解下,介绍自己的经验,希望帮助朋友们解决使用中遇到的问题。

图片1.png

条件判断有四种形式:1.条件判断:

1当前页面源码

图片2.png2xpathhttp://bbs.locoyposter.com/post-21-1-1.html

图片3.png

在使用变量判断的时候,选择判断方式必须要选择相等。3变量判断  

4使用代码片段

图片4.png

http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=75&extra=page%3D1%26filter%3Dtypeid%26typeid%3D5判断值是否大于某个值等类似的判断。具体使用方法:

2.循环:

图片5.png

1在一个网址需要无限反复的采集或者填写的时候,可以使用到无限循环循环一般是稍复杂的脚本中都会用到,其功能是非常强大的。其中具体有以下几种:

2点击固定元素:当需要重复点击同一个元素的时候,比如点击下一页,便可以使用此功能

3点击一组固定元素:当需要依次点击页面中的一组元素时,用此功能。

4点击指定的元素列表:将需要点击元素的xpath 放在一个list变量中,再选用此功能,就可以依次点击list变量中的xpath。

5遍历list变量,需要访问的元素放在list变量中,然后使用循环去一一访问它,比如采集网页是,list变来那个中存放的是网址,那么循环遍历是,级那个每次比昂里的网址存放在一个文本型变量中,图示“保存至变量”步骤,设置一个变量来临时存储要访问的网址,然后将变量填入“打开网页”步骤的访问地址栏,这样就可以循环打开list变量中的网址.

6从数据库中查询数据:使用sql语句,调用数据库的数据。与列同名的变量可直接调用该列中的数据,所以使用下面的保存至变量。具体使用方法:

http://bbs.locoyposter.com/post-222-1-1.html

7循环执行次数:可以直接填写固定值或者使用计数器变量的值来控制循环次数。

3.跳转:跳转到其他步骤

图片6.png

5.结束循环:循环步骤结束4.跳出本次循环:跳出当前循环的步骤,进行下一个循环

提示(跳出循环与结束循环的区别)

跳出循环:比如有 5个数,当前循环到3,使用跳出循环,则不再进行循环3的步骤,跳出这个循环后从循环数字4开始再循环

结束循环:同样有 5个数,当前循环到3  使用结束循环,则循环结束,不再进行下面数字的循环。

6.暂停等待:这个步骤用到会比较多,有些网页打开加载比较慢(比如登录时,页面跳转时),就设置一个暂停等待的时间。等待的时间设置固定的时间,也可使用计数器变量或者随机时间。也可以使用网页中一个标志性的xpath,作为等待指定的元素,即网页中加载出这个元素后就进行下面的操作,比如一个网页中只需要进行写值时,就可以使用输入框xpath作为等待指定元素。

标签: 可视化采集软件 火车浏览器​

评论(0) 引用(0) 浏览(1683)

网页数据抓取之自动分类功能

作者:dong 发布于:2016-9-10 16:57 Saturday 分类:官方公告

我们在使用火车采集器进行数据抓取的时候,会需要将采集内容包含某个字的所有内容都替换为某个固定的内容。使用场景如:我们从网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。

下面以百度为例介绍下用法,首先在火车采集器V9建立规则,内容采集规则的标签编辑如下:

1.png

 

如上图,我们想要将包含百度的标题 内容更替换为常用搜索网站,则写成如下格式:

2.png

 

运行结果为:

3.png

 

就是数据抓取时将某字段所有内容自动分类的使用方法,在操作需要注意的是

1一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,火车采集器中是按照从上至下的原则替换。

2若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:

 

4.png


学会数据抓取的自动分类操作,对包含同类字段的内容进行分类就方便多了,大家也操作试试吧。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(1978)

网页抓取工具:企业竞争情报监控怎么玩?

作者:dong 发布于:2016-8-3 16:06 Wednesday 分类:官方公告

企业间的竞争情报是企业优化所需的一项重要数据,准确而及时的企业竞争情报往往能为企业带来许多优势。信息化竞争时代,企业竞争情报也显得愈发的重要。但信息时代在带来了大量数据的同时,也给信息处理带来了很大的难题——如何从浩如烟海的网络信息中找寻所需的竞争信息呢?

61.png

传统人工的检索、整理方法已不可取,海量的数据面前这些手动获取的小数据微不足道,毫无价值可言。竞争舆情监控效率低怎能产生效果?网页抓取工具可以智能化地解决这个问题,帮助企业人员用自动化的软件来操作庞大而繁杂的情报信息。

以下是情报监控的一些操作建议:

网页抓取工具火车采集器可以采集几乎所有网页中的任意数据,因此我们需要规划好数据来源:对于企业竞争情报而言,新闻、论坛、博客、贴吧、纸媒站点等都有着各种形式的竞争信息可供采集,企业人员可以根据所从事领域的舆论分布来选择。众多来源中信息肯定都是会实时更新的,而网页抓取工具火车采集器也能够凭借计划任务功能实现自动化地动态更新,以确保抓取信息的完整和时效性。

不同的来源系统需要不同的配置,灵活通用的火车采集器既能做到标准新闻的正文自动提取,也能提供多样的配置方式来适应复杂页面。根据不同的系统设定不同的采集方式,或根据不同的需要对某系统中特定的一些重要数据进行提取,例如关键词、新闻摘要、电话号码等。用最佳配置实施批量、高效的提取。

    对已经获取的情报数据实施智能管理也是非常重要的,比如在使用网页抓取工具进行采集时,对于同一个URL,火车采集器仅采集最新的没有采集过的文章内容或回复,而对已经采集过的内容,则要自动忽略,同时采集到的地址或数据还需要进行一次自动排重,这样才能保证情报数据的准确性。

    企业竞争情报信息量大且复杂,满足多来源通用、实时更新、排重抓取的网页抓取工具才能智能化解决情报监控的需求,随着信息技术的进一步发展,企业竞争情报监控也将更加智能和高效。


标签: 网页抓取工具 火车采集器软件

评论(0) 引用(0) 浏览(2519)

Powered by emlog