dong - 火车采集器官方博客

可视化采集软件火车浏览器的逻辑相关操作

作者：dong 发布于：2016-9-23 17:48 Friday 分类：官方公告

可视化采集软件火车浏览器在编辑脚本的过程中需要对逻辑进行一系列设定，比如条件判断、循环、跳转、引用等，这里就对逻辑的具体操作简单讲解下，介绍自己的经验，希望帮助朋友们解决使用中遇到的问题。

图片1.png

条件判断有四种形式：1.条件判断：

1）当前页面源码

图片2.png 2）xpathhttp://bbs.locoyposter.com/post-21-1-1.html

图片3.png

在使用变量判断的时候，选择判断方式必须要选择相等。3）变量判断

4）使用代码片段

http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=75&extra=page%3D1%26filter%3Dtypeid%26typeid%3D5判断值是否大于某个值等类似的判断。具体使用方法：

2.循环：

图片5.png

1）在一个网址需要无限反复的采集或者填写的时候，可以使用到无限循环循环一般是稍复杂的脚本中都会用到，其功能是非常强大的。其中具体有以下几种：

2）点击固定元素：当需要重复点击同一个元素的时候，比如点击下一页，便可以使用此功能

3）点击一组固定元素：当需要依次点击页面中的一组元素时，用此功能。

4）点击指定的元素列表：将需要点击元素的xpath 放在一个list变量中，再选用此功能，就可以依次点击list变量中的xpath。

5）遍历list变量，需要访问的元素放在list变量中，然后使用循环去一一访问它，比如采集网页是，list变来那个中存放的是网址，那么循环遍历是，级那个每次比昂里的网址存放在一个文本型变量中，图示“保存至变量”步骤，设置一个变量来临时存储要访问的网址，然后将变量填入“打开网页”步骤的访问地址栏，这样就可以循环打开list变量中的网址.

6）从数据库中查询数据：使用sql语句，调用数据库的数据。与列同名的变量可直接调用该列中的数据，所以使用下面的保存至变量。具体使用方法：

http://bbs.locoyposter.com/post-222-1-1.html

7）循环执行次数：可以直接填写固定值或者使用计数器变量的值来控制循环次数。

3.跳转：跳转到其他步骤

图片6.png

5.结束循环：循环步骤结束4.跳出本次循环：跳出当前循环的步骤，进行下一个循环

提示（跳出循环与结束循环的区别）

跳出循环：比如有 5个数，当前循环到3，使用跳出循环，则不再进行循环3的步骤，跳出这个循环后从循环数字4开始再循环。

结束循环：同样有 5个数，当前循环到3 使用结束循环，则循环结束，不再进行下面数字的循环。

6.暂停等待：这个步骤用到会比较多，有些网页打开加载比较慢(比如登录时，页面跳转时)，就设置一个暂停等待的时间。等待的时间设置固定的时间，也可使用计数器变量或者随机时间。也可以使用网页中一个标志性的xpath，作为等待指定的元素，即网页中加载出这个元素后就进行下面的操作，比如一个网页中只需要进行写值时，就可以使用输入框xpath作为等待指定元素。

标签: 可视化采集软件火车浏览器

评论(0) 引用(0) 浏览(15815)

网页数据抓取之自动分类功能

作者：dong 发布于：2016-9-10 16:57 Saturday 分类：官方公告

我们在使用火车采集器进行数据抓取的时候，会需要将采集内容包含某个字段的所有内容都替换为某个固定的内容。使用场景如：我们从某网站上采集城市名称，然后城市名称示例为:浙江省杭州市，但我们需要将这个内容替换为杭州，这时就可以使用自动分类功能。

下面以百度为例介绍下用法，首先在火车采集器V9建立规则，内容采集规则的标签编辑如下：

如上图，我们想要将包含百度的标题内容更替换为“常用搜索网站”，则写成如下格式：

运行结果为：

上述就是数据抓取时将某字段所有内容自动分类的使用方法，在操作中还需要注意的是：

1、一行一个分类，可以写多个分类。若是一个关键词符合多个分类，则优先替换上面的分类，火车采集器中是按照从上至下的原则替换。

2、若是所有分类不符合的情况下，你想要将关键词赋予为一个默认值，按下图操作：

学会数据抓取的自动分类操作，对包含同类字段的内容进行分类就方便多了，大家也操作试试吧。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(9288)

网页抓取工具：企业竞争情报监控怎么玩？

作者：dong 发布于：2016-8-3 16:06 Wednesday 分类：官方公告

企业间的竞争情报是企业优化所需的一项重要数据，准确而及时的企业竞争情报往往能为企业带来许多优势。信息化竞争时代，企业竞争情报也显得愈发的重要。但信息时代在带来了大量数据的同时，也给信息处理带来了很大的难题——如何从浩如烟海的网络信息中找寻所需的竞争信息呢？

传统人工的检索、整理方法已不可取，海量的数据面前这些手动获取的小数据微不足道，毫无价值可言。竞争舆情监控效率低怎能产生效果？网页抓取工具可以智能化地解决这个问题，帮助企业人员用自动化的软件来操作庞大而繁杂的情报信息。

以下是情报监控的一些操作建议：

网页抓取工具火车采集器可以采集几乎所有网页中的任意数据，因此我们需要规划好数据来源：对于企业竞争情报而言，新闻、论坛、博客、贴吧、纸媒站点等都有着各种形式的竞争信息可供采集，企业人员可以根据所从事领域的舆论分布来选择。众多来源中信息肯定都是会实时更新的，而网页抓取工具火车采集器也能够凭借计划任务功能实现自动化地动态更新，以确保抓取信息的完整和时效性。

不同的来源系统需要不同的配置，灵活通用的火车采集器既能做到标准新闻的正文自动提取，也能提供多样的配置方式来适应复杂页面。根据不同的系统设定不同的采集方式，或根据不同的需要对某系统中特定的一些重要数据进行提取，例如关键词、新闻摘要、电话号码等。用最佳配置实施批量、高效的提取。

对已经获取的情报数据实施智能管理也是非常重要的，比如在使用网页抓取工具进行采集时，对于同一个URL，火车采集器仅采集最新的没有采集过的文章内容或回复，而对已经采集过的内容，则要自动忽略，同时采集到的地址或数据还需要进行一次自动排重，这样才能保证情报数据的准确性。

企业竞争情报信息量大且复杂，满足多来源通用、实时更新、排重抓取的网页抓取工具才能智能化解决情报监控的需求，随着信息技术的进一步发展，企业竞争情报监控也将更加智能和高效。

标签: 网页抓取工具火车采集器软件

评论(0) 引用(0) 浏览(6752)

网页抓取工具打造大数据“智媒体”

作者：dong 发布于：2016-7-29 16:03 Friday

当下的媒体现况，在一个焦点事件发生后或某一持续性的话题中，要想形成一个媒体专题本来需要很多的人工操作，比如信息收集分拣，及时更新等，但高效的网页抓取工具将给我们创造一个大数据智媒体。

智媒体.png

通过网页抓取工具火车采集器能够自动收集出焦点事件在网络中对应的舆情。比如一个连续发生多日的事件，在每一个重要的节点时间里都要对数据进行抓取更新，那么只需要在火车采集器中设置更新时间和频率就可以了。再比如我们关注的金融行情，也能够时刻更新并自动整理成动态的媒体专栏。

而对于焦点中某几个方面的关注程度，同样可以根据网页抓取工具抓取所得的阅读量或关注量数据来进行排序推荐和智能分级。我们甚至可以用网页抓取工具来维护一个智能媒体站，用户要做的是锁定几个或更多的信息输出页，在网页抓取工具火车采集器中给出信息输出页后，配置网址抓取和内容抓取的详细规则，获得所需数据后可对数据进行一系列的排重、筛选、清洗处理，最后还能选择自动、定时地将处理过的精华内容发布到网站指定的栏目。

火车采集器.jpg

未来的智媒体必然是大数据作为引擎的媒体，核心要素就是具备规模的数据，我们要学会有效的使用数据，并发挥数据的价值。国内已经有基于媒体稿件大数据推出的高科技媒体产物，让人们更加快速准确的获知讯息，帮助人们更好地去发现信息的价值和本质。

有专家提出，如果没有大数据的支持，其实许多新闻都是无从下手的，在传统的媒介中很难有智能分析、预警或是决策，因而大数据智能化是必然趋势。

但是目前网页大数据打造的智媒体却并不能完全取代人脑的工作，因为对知识或事件人脑是有自我理解倾向的，而人工智能对语言文字分析还需要继续探索，将大量枯燥的内容进行融合，抽取其具体化信息，或许有一天还能够代替人脑来实施更加复杂的原创，那时的智媒体会更加个性化、定制化、高效化。

标签: 网页抓取工具火车采集器V9 大数据

评论(0) 引用(0) 浏览(6321)

抓取网页数据工具标签组合的使用方法

作者：dong 发布于：2016-7-22 13:59 Friday 分类：官方公告

抓取网页数据工具火车采集器V9将标签组合功能放在了数据获取方式选项中，即可以通过标签组合来获取标签数据，下面讲解一下该功能如何使用。学习之前需要注意以下几种情况：

1.标签组合是组合文件下载前的内容

有的朋友发现，a标签中下载了某个文件，原始地址是aaa,下载后或是探测的地址为bbb,那么，如果您在b标签中组合使用a标签，a标签的值是aaa.为何使用这种处理方法，是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢？可以新建一个标签，选“自定义固定格式数据”，将您标签组合的内容放进去。这里的替换会在文件下载后执行。

2.内容页标签循环采集并添加为新记录

如果组合的两个标签都是内容页标签，这两个标签在组合时，会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少，则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3，则会生成5个c,其中，前3个标签的值分别是a,b一一对应的。最后两个值中，b的值为空。比如我们假设a的值是11、22、33、44、55,而b的值为aa、bb、cc，那么c是由[标签:a][标签:b]组合的，则产生的c的值为11aa、22bb、33cc、44、55，后面两个b值为空。

3.列表页标签和内容页标签组合

如果两个标签中一个是内容页，一个是列表页，则内容页是会参加第2条中的循环处理，在这个过程中列表页先当作一个字符串处理。合并完成后，程序会再进行数据处理操作。最后，组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中，可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11、22、33，b的值为bb,那么，c第一次组合结果是11[标签:b]、22[标签:b]、33[标签:b]，然后进行数据处理：如果b的值是bb,那么最后的结果就是11bb、22bb、33bb。
下面来实际操作下，已有标签的组合操作示例如下：