最新火车采集器V9用户使用手册PDF版

作者:dong 发布于:2017-2-15 19:13 Wednesday

最新火车采集器V9用户使用手册PDF版

查看链接:http://bbs.locoy.com/spider-150736-1-1.html

评论(0) 引用(0) 浏览(4636)

火车采集器软件-今日头条娱乐新闻采集规则分享

作者:dong 发布于:2017-2-15 17:38 Wednesday

本规则采集今日头条娱乐版块新闻,不包含视频新闻。

本规则仅供广大用户学习参考,我们不对此规则进行维护更新。

商业版用户有问题或付费定制规则请联系官方客服QQ:800019423


下载链接:http://bbs.locoy.com/spider-150750-1-1.html


火车采集器软件V9.3最新视频教程-YY直播课程录屏合集

联系我们
客服QQ:800019423
客服电话:0551-62864156-603


软件购买:http://www.locoy.com/buy


评论(0) 引用(0) 浏览(10160)

可视化采集软件火车浏览器的逻辑相关操作

作者:dong 发布于:2016-9-23 17:48 Friday 分类:官方公告

可视化采集软件火车浏览器​在编辑脚本的过程中需要对逻辑进行一系列设定,比如条件判断、循环、跳转、引用等,这里就对逻辑的具体操作简单讲解下,介绍自己的经验,希望帮助朋友们解决使用中遇到的问题。

图片1.png

条件判断有四种形式:1.条件判断:

1当前页面源码

图片2.png2xpathhttp://bbs.locoyposter.com/post-21-1-1.html

图片3.png

在使用变量判断的时候,选择判断方式必须要选择相等。3变量判断  

4使用代码片段

图片4.png

http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=75&extra=page%3D1%26filter%3Dtypeid%26typeid%3D5判断值是否大于某个值等类似的判断。具体使用方法:

2.循环:

图片5.png

1在一个网址需要无限反复的采集或者填写的时候,可以使用到无限循环循环一般是稍复杂的脚本中都会用到,其功能是非常强大的。其中具体有以下几种:

2点击固定元素:当需要重复点击同一个元素的时候,比如点击下一页,便可以使用此功能

3点击一组固定元素:当需要依次点击页面中的一组元素时,用此功能。

4点击指定的元素列表:将需要点击元素的xpath 放在一个list变量中,再选用此功能,就可以依次点击list变量中的xpath。

5遍历list变量,需要访问的元素放在list变量中,然后使用循环去一一访问它,比如采集网页是,list变来那个中存放的是网址,那么循环遍历是,级那个每次比昂里的网址存放在一个文本型变量中,图示“保存至变量”步骤,设置一个变量来临时存储要访问的网址,然后将变量填入“打开网页”步骤的访问地址栏,这样就可以循环打开list变量中的网址.

6从数据库中查询数据:使用sql语句,调用数据库的数据。与列同名的变量可直接调用该列中的数据,所以使用下面的保存至变量。具体使用方法:

http://bbs.locoyposter.com/post-222-1-1.html

7循环执行次数:可以直接填写固定值或者使用计数器变量的值来控制循环次数。

3.跳转:跳转到其他步骤

图片6.png

5.结束循环:循环步骤结束4.跳出本次循环:跳出当前循环的步骤,进行下一个循环

提示(跳出循环与结束循环的区别)

跳出循环:比如有 5个数,当前循环到3,使用跳出循环,则不再进行循环3的步骤,跳出这个循环后从循环数字4开始再循环

结束循环:同样有 5个数,当前循环到3  使用结束循环,则循环结束,不再进行下面数字的循环。

6.暂停等待:这个步骤用到会比较多,有些网页打开加载比较慢(比如登录时,页面跳转时),就设置一个暂停等待的时间。等待的时间设置固定的时间,也可使用计数器变量或者随机时间。也可以使用网页中一个标志性的xpath,作为等待指定的元素,即网页中加载出这个元素后就进行下面的操作,比如一个网页中只需要进行写值时,就可以使用输入框xpath作为等待指定元素。

标签: 可视化采集软件 火车浏览器​

评论(0) 引用(0) 浏览(6462)

网页数据抓取之自动分类功能

作者:dong 发布于:2016-9-10 16:57 Saturday 分类:官方公告

我们在使用火车采集器进行数据抓取的时候,会需要将采集内容包含某个字的所有内容都替换为某个固定的内容。使用场景如:我们从网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。

下面以百度为例介绍下用法,首先在火车采集器V9建立规则,内容采集规则的标签编辑如下:

1.png

 

如上图,我们想要将包含百度的标题 内容更替换为常用搜索网站,则写成如下格式:

2.png

 

运行结果为:

3.png

 

就是数据抓取时将某字段所有内容自动分类的使用方法,在操作需要注意的是

1一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,火车采集器中是按照从上至下的原则替换。

2若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:

 

4.png


学会数据抓取的自动分类操作,对包含同类字段的内容进行分类就方便多了,大家也操作试试吧。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(8449)

网页抓取工具:企业竞争情报监控怎么玩?

作者:dong 发布于:2016-8-3 16:06 Wednesday 分类:官方公告

企业间的竞争情报是企业优化所需的一项重要数据,准确而及时的企业竞争情报往往能为企业带来许多优势。信息化竞争时代,企业竞争情报也显得愈发的重要。但信息时代在带来了大量数据的同时,也给信息处理带来了很大的难题——如何从浩如烟海的网络信息中找寻所需的竞争信息呢?

61.png

传统人工的检索、整理方法已不可取,海量的数据面前这些手动获取的小数据微不足道,毫无价值可言。竞争舆情监控效率低怎能产生效果?网页抓取工具可以智能化地解决这个问题,帮助企业人员用自动化的软件来操作庞大而繁杂的情报信息。

以下是情报监控的一些操作建议:

网页抓取工具火车采集器可以采集几乎所有网页中的任意数据,因此我们需要规划好数据来源:对于企业竞争情报而言,新闻、论坛、博客、贴吧、纸媒站点等都有着各种形式的竞争信息可供采集,企业人员可以根据所从事领域的舆论分布来选择。众多来源中信息肯定都是会实时更新的,而网页抓取工具火车采集器也能够凭借计划任务功能实现自动化地动态更新,以确保抓取信息的完整和时效性。

不同的来源系统需要不同的配置,灵活通用的火车采集器既能做到标准新闻的正文自动提取,也能提供多样的配置方式来适应复杂页面。根据不同的系统设定不同的采集方式,或根据不同的需要对某系统中特定的一些重要数据进行提取,例如关键词、新闻摘要、电话号码等。用最佳配置实施批量、高效的提取。

    对已经获取的情报数据实施智能管理也是非常重要的,比如在使用网页抓取工具进行采集时,对于同一个URL,火车采集器仅采集最新的没有采集过的文章内容或回复,而对已经采集过的内容,则要自动忽略,同时采集到的地址或数据还需要进行一次自动排重,这样才能保证情报数据的准确性。

    企业竞争情报信息量大且复杂,满足多来源通用、实时更新、排重抓取的网页抓取工具才能智能化解决情报监控的需求,随着信息技术的进一步发展,企业竞争情报监控也将更加智能和高效。


标签: 网页抓取工具 火车采集器软件

评论(0) 引用(0) 浏览(5888)

Powered by emlog