火车采集器2011版本招募测试人员

作者:小文 发布于:2011-7-17 22:09 Sunday 分类:官方公告

火车采集器2011版的开发工作已完成一半,剩余的开发工作也在紧张有序的进行中,软件的功能测试将会在8月中下旬开始。现在我们开始招募软件测试人员,对火车采集器有兴趣的朋友可以考虑加入。下边就具体的要求进行说明。

1.软件内测不提供报酬,完全是用户自己的兴趣所在。但我们会在内测及测试完成后,给测试人员提供1个月的免费的全功能版本使用权。对于2011版本,我们会开放一个公共帐号提供给热心用户,以按月使用的方式,提供给用户使用。我们会提供各种机会,让每个用户都可以争取到更多的使用时间(可以累积时间)。

2.内测人员需要有丰富的火车采集器使用经验。对于采集有深入了解的朋友,他知道火车采集器的优点,也知道它存在的不足,有自己的看法,也有自己的解决办法。对于数据抓取,不仅是数据的抓取,在数据处理方面有非常注重。对于申请时技术能力的考核,请用户下载附件中的考核题目,并根据自己的看法进行回复。

3.内测人员有.net软件开发方面的能力更佳。2011版本的采集器会更加开放,我们会提供给用户更多的开发接口,有独立开发能力的朋友可以在我们软件的平台上开发出自己的采集器来。可以利用火车采集器强大的影响力来推广并获得更多的收益。

4.内测完成后,测试群将长期保留,测试人员可以参加其它我公司的软件测试及各种活动。

 

注:2011版本改动较多,内测完成后将进行公测,其他用户也不必焦急。以下为2011版的部分特性。

1.火车采集器2011致力于采集平台的搭建,用户可以利用平台提供的采集,发布以及其它的分词,ocr等api,来开发适合自己的应用。

2.支持安装为系统服务,支持httpServer,支持主从服务模式(服务端+客户端)

3.可视化DOM树规则编写 xpath提取网页数据

4.web发布时,支持json,xml等格式数据的发布.
5.自动登陆功能和登陆状态维护,多域名登陆
6.一键转载,类似于海纳的一键转载功能(需要采集规则支持)
7.Rss采集源自动识别
8.集成火车头网页正文提取模块和通用OCR识别模块等

9.增加mongod数据库支持,更好支持海量数据采集

10.支持corn计划任务,更灵活的自动运行设置

11. 更多细节改变

标签: 软件内测

评论(2) 引用(0) 浏览(4848)

火车采集器2010SP3 build 20110531更新发布

作者:小文 发布于:2011-5-31 15:13 Tuesday 分类:官方公告

本次更新修复了原版本中几个关于cookie方面的bug.

1.修复了部分情况下cookie丢失的bug.
2.修复了一个多页分页cookie不能传过去的bug.

 

需要注意的一点是,此次也更新了自动升级程序,如果部分用户更新时失败,请在更新列表中选择20110520的更新,其中有更程序的下载地址,请下载更新程序后覆盖掉原来的升级程序,再进行升级
 

标签: 更新

评论(0) 引用(0) 浏览(5616)

火车采集器新版升级程序(最后更新20110520)

作者:小文 发布于:2011-4-1 10:21 Friday 分类:官方公告

新版的火车采集器升级程序相比旧版升级更直观和方便。现在就一些使用上的问题作一些说明。

1.软件版本升级(不同时间的版本)

点击查看原图

如上图,当您有好长时间没更新时,打开升级程序可能会看到多个版本。选择相应的版本,即可以将程序升级到对应的版本日期。建议用户选第一个,也就是最新的版本。程序会直接升级到最新的版本。

2.软件各个版本间升级(不同价格的版本)

如您使用免费版升级到标准版,只需要将免费版的主程序删除掉,然后将System目录下的update.xml文件进行修改,将 <ver>free</ver> 修改成  <ver>standard</ver> ,然后再运行升级程序即可以将免费版升级至标准版。

各个版本的编号分别为 免费版free,个人版personal,标准版standard,旗舰版ultimate,加密狗版ultimate_dog,企业版enterprise.

注意:这个版本间升级必须修改update.xml文件。否则下次使用自动升级可能会将原版本程序升级过来。对于商业版本间的升级,需要删除user目录下的locoylicence.dll文件。

3.注意事项

升级程序只升级dll,exe文件。其它的文件目录不提供升级。

如果您是在2011年3.31号前下载的火车采集器或是升级的版本,您的升级程序可能不是最新的,请下载附件中该升级文件并替换掉原来的 AutoUpdate.exe 程序。

评论(1) 引用(0) 浏览(6377)

火车采集器通用OCR识别.NET插件(03-21更新)

作者:小文 发布于:2011-3-28 11:26 Monday 分类:官方公告

火车头通用OCR识别/验证码识别演示程序 发布之后,我们将该技术做成通用插件,引用到火车采集器中来,供舰版及企业版用户直接免费使用

1、特殊注意:该插件需要 Microsoft Visual C++ 2008 SP1 Redistributable 支持。
Visual C++ 2008 SP1 Redistributable下载地址:http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2

2、该压缩包只是火车采集器插件,如果需要配置插件需要的xml配置文件,请使用火车头通用OCR识别/验证码识别演示程序(http://board.locoy.com/?post=69 )进行测试识别和配置xml。

3、安装使用方法(火车采集器2010版以上适用):

安装方法:将压缩包里面的System目录及Plugins目录覆盖到火车采集器程序目录内
          该ocr也能识别部分非常简单的汉字,如果测试程序配置后可以识别,需要将测试程序里面的chi_sim.traineddata复制到采集器目录下System/tessdata目录下。

使用方法:1.使用火车头通用OCR识别/验证码识别演示程序(http://board.locoy.com/?post=69 )进行测试识别并保存xml配置文件到火车采集器Plugins目录,文件名必须包含识别二字, 如:口碑验证码识别.xml,58同城验证码识别.xml。
          2.假设您已经识别测试成功,开始添加图片地址标签,该标签名为您刚刚保存的xml文件的文件名 如:口碑验证码识别,58同城验证码识别。
          3.测试识别效果或正式采集。


旗舰版企业版用户可以直接免费使用,请直接向您所属客服索要该识别插件。

4_13_5b57cdacd222195.jpg

标签: ocr

评论(2) 引用(0) 浏览(8965)

通用自动更新程序完成

作者:小文 发布于:2011-3-7 21:54 Monday 分类:官方公告

在以前的火车采集器所有软件的更新中。每次升级都是一个比较复杂的过程。有时可能需要升级几次才能升级到最新版本,比较麻烦且不科学。针对此情况,我们开发了通用的升级程序,可以很方便的配置所有软件的升级,且可以一次升级到最新或是指定的版本,十分方便快捷。下边是一些软件的截图。

点击查看原图

 

点击查看原图

 

点击查看原图

点击查看原图

标签: 升级

评论(0) 引用(0) 浏览(5489)

Powered by emlog