火车采集器V7V8版本无法登录的解决办法

作者:小文 发布于:2016-5-12 23:28 Thursday 分类:官方公告

非常抱歉,因为原V7V8版本验证服务器失效和故障,部分朋友无法登录软件。出现这种情况,请下载本文附件包,解压其中对应版本中的文件,替换掉System文件夹中对应文件,然后重新登录即可。点击下载更新包

火车采集器官方网站上所有完整包也更新完成,可以下载使用

标签: 登录

评论(2) 引用(0) 浏览(2511)

网页抓取工具:火车采集器V9版免费下载

作者:dong 发布于:2015-10-28 9:39 Wednesday 分类:官方公告

网页抓取工具火车采集器历经十年的更新迭代,在20159月推出了V9版本。火车采集器V9经过前期数月的认真筹备和大家的积极公测终于完美的上线了,相对之前的版本,V9的多项优化受到了大家的关注与好评。无论是从性能上还是功能上,V9都是非常值得体验的。也期待广大用户们继续提出宝贵的建议,我们会将火车采集器越做越好!

下载地址:http://file.locoy.com/v9/LocoySpider_V9.0_Build20150917.rar


vv9.jpg


一起看看V9都有哪些亮点吧~

  在UI设计上:

Ø V9一改V8的单一灰色界面,采用了与OfficeWindows相匹配的多种可选界面风格,用户可依据个人偏好进行设置;               

Ø 常用设置提至菜单界面中直观显示,使用更方便。

 

  系统方面:

Ø V9采用AnyCPU X64位开发,更好兼容32位及64位系统

Ø 使用了九年的.NET2.0框架在V9中升级到.NET4.0框架;

Ø 支持最新的Win10系统中运行
在功能操作上:

新增:

Ø 二级代理服务器新增Socks代理

Ø 任务运行过程中可修改线程数等参数,实时调节运行速度,添加可查看任务运行当前及总体速度功能

Ø 支持SSH(SFTP文件)上传

Ø 内容提取新增JSON提取方式,提取JSON数据更加简单

Ø 插件编辑器新增C#源码文件插件,类似PHP源码插件一样,编辑后直接生效,但比PHP源码插件支持更多的插件接口

Ø 软件闪退,支持保存未完成的任务进度

Ø 新增消息机制

  修改:

Ø V9将采网址和采内容的方式合并,列表采集及内容采集使用不同队列,优化采集流程,更新数据内容的方式由Update改为insert,大幅提升采集及入库速度;

Ø 任务运行合并到统一界面,添加“实时数据”查看和“任务详情”统计

Ø 修改原有的无限级列表页网址获取模式,使无限级配置操作更加简单

Ø 字段重复性对比功能不再使用数据库unique方式,改为内存Md5_16对比,更加精准;

Ø 标签数据来源更细致化,可设置从默认页分页多页的源码URL地址及返回头信息中提取

主要优化部分就是上面这些啦,看完之后是不是觉得V9很炫酷,那就果断更新升级吧,还在服务年限内的用户免费升级到V9哦!

扫码关注微信

标签: 网页抓取工具 火车采集器V9

评论(6) 引用(0) 浏览(3663)

网页抓取工具:企业竞争情报监控怎么玩?

作者:dong 发布于:2016-8-3 16:06 Wednesday 分类:官方公告

企业间的竞争情报是企业优化所需的一项重要数据,准确而及时的企业竞争情报往往能为企业带来许多优势。信息化竞争时代,企业竞争情报也显得愈发的重要。但信息时代在带来了大量数据的同时,也给信息处理带来了很大的难题——如何从浩如烟海的网络信息中找寻所需的竞争信息呢?

61.png

传统人工的检索、整理方法已不可取,海量的数据面前这些手动获取的小数据微不足道,毫无价值可言。竞争舆情监控效率低怎能产生效果?网页抓取工具可以智能化地解决这个问题,帮助企业人员用自动化的软件来操作庞大而繁杂的情报信息。

以下是情报监控的一些操作建议:

网页抓取工具火车采集器可以采集几乎所有网页中的任意数据,因此我们需要规划好数据来源:对于企业竞争情报而言,新闻、论坛、博客、贴吧、纸媒站点等都有着各种形式的竞争信息可供采集,企业人员可以根据所从事领域的舆论分布来选择。众多来源中信息肯定都是会实时更新的,而网页抓取工具火车采集器也能够凭借计划任务功能实现自动化地动态更新,以确保抓取信息的完整和时效性。

不同的来源系统需要不同的配置,灵活通用的火车采集器既能做到标准新闻的正文自动提取,也能提供多样的配置方式来适应复杂页面。根据不同的系统设定不同的采集方式,或根据不同的需要对某系统中特定的一些重要数据进行提取,例如关键词、新闻摘要、电话号码等。用最佳配置实施批量、高效的提取。

    对已经获取的情报数据实施智能管理也是非常重要的,比如在使用网页抓取工具进行采集时,对于同一个URL,火车采集器仅采集最新的没有采集过的文章内容或回复,而对已经采集过的内容,则要自动忽略,同时采集到的地址或数据还需要进行一次自动排重,这样才能保证情报数据的准确性。

    企业竞争情报信息量大且复杂,满足多来源通用、实时更新、排重抓取的网页抓取工具才能智能化解决情报监控的需求,随着信息技术的进一步发展,企业竞争情报监控也将更加智能和高效。


标签: 网页抓取工具 火车采集器软件

评论(0) 引用(0) 浏览(332)

网页抓取工具打造大数据“智媒体”

作者:dong 发布于:2016-7-29 16:03 Friday

当下的媒体现况,在一个焦点事件发生后或某一持续性的话题中,要想形成一个媒体专题本来需要很多的人工操作,比如信息收集分拣,及时更新等,但高效的网页抓取工具将给我们创造一个大数据智媒体。

智媒体.png

通过网页抓取工具火车采集器能够自动收集出焦点事件在网络中对应的舆情。比如一个连续发生多日的事件,在每一个重要的节点时间里都要对数据进行抓取更新,那么只需要在火车采集器中设置更新时间和频率就可以了。再比如我们关注的金融行情,也能够时刻更新并自动整理成动态的媒体专栏。

而对于焦点中某几个方面的关注程度,同样可以根据网页抓取工具抓取所得的阅读量或关注量数据来进行排序推荐和智能分级。我们甚至可以用网页抓取工具来维护一个智能媒体站,用户要做的是锁定几个或更多的信息输出页,在网页抓取工具火车采集器中给出信息输出页后,配置网址抓取和内容抓取的详细规则,获得所需数据后可对数据进行一系列的排重、筛选、清洗处理,最后还能选择自动、定时地将处理过的精华内容发布到网站指定的栏目。

火车采集器.jpg

未来的智媒体必然是大数据作为引擎的媒体,核心要素就是具备规模的数据,我们要学会有效的使用数据,并发挥数据的价值。国内已经有基于媒体稿件大数据推出的高科技媒体产物,让人们更加快速准确的获知讯息,帮助人们更好地去发现信息的价值和本质。

有专家提出,如果没有大数据的支持,其实许多新闻都是无从下手的,在传统的媒介中很难有智能分析、预警或是决策,因而大数据智能化是必然趋势。

但是目前网页大数据打造的智媒体却并不能完全取代人脑的工作,因为对知识或事件人脑是有自我理解倾向的,而人工智能对语言文字分析还需要继续探索,将大量枯燥的内容进行融合,抽取其具体化信息,或许有一天还能够代替人脑来实施更加复杂的原创,那时的智媒体会更加个性化、定制化、高效化。


标签: 网页抓取工具 火车采集器V9 大数据

评论(0) 引用(0) 浏览(395)

抓取网页数据工具标签组合的使用方法

作者:dong 发布于:2016-7-22 13:59 Friday 分类:官方公告

   抓取网页数据工具火车采集器V9将标签组合功能放在了数据获取方式选项中,即可以通过标签组合来获取标签数据,下面讲解一下该功能如何使用。学习之前需要注意以下几种情况:

1.标签组合是组合文件下载前的内容

    有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。

2.内容页标签循环采集并添加为新记录

    如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。比如我们假设a的值是11、22、33、44、55,而b的值为aa、bb、cc,那么c是由[标签:a][标签:b]组合的,则产生的c的值为11aa、22bb、33cc、44、55,后面两个b值为空。

3.列表页标签和内容页标签组合

如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页先当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11、22、33,b的值为bb,那么,c第一次组合结果是11[标签:b]、22[标签:b]、33[标签:b],然后进行数据处理:如果b的值是bb,那么最后的结果就是11bb、22bb、33bb。
下面来实际操作下,已有标签的组合操作示例如下:

  我们把“标题”和“来源”标签组合成一个新标签“标题+来源”,之间用“___”隔开,我们测试下结果如下图,查看该标签内容可以看到测试结果和预期效果是一样的。

那么生成固定格式数据的组合方式怎么操作呢?看下图:

再测试一下,可以看到测试结果和已有标签组合的结果是一致的。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(502)

Powered by emlog