火车采集器2011版的开发工作已完成一半,剩余的开发工作也在紧张有序的进行中,软件的功能测试将会在8月中下旬开始。现在我们开始招募软件测试人员,对火车采集器有兴趣的朋友可以考虑加入。下边就具体的要求进行说明。
1.软件内测不提供报酬,完全是用户自己的兴趣所在。但我们会在内测及测试完成后,给测试人员提供1个月的免费的全功能版本使用权。对于2011版本,我们会开放一个公共帐号提供给热心用户,以按月使用的方式,提供给用户使用。我们会提供各种机会,让每个用户都可以争取到更多的使用时间(可以累积时间)。
2.内测人员需要有丰富的火车采集器使用经验。对于采集有深入了解的朋友,他知道火车采集器的优点,也知道它存在的不足,有自己的看法,也有自己的解决办法。对于数据抓取,不仅是数据的抓取,在数据处理方面有非常注重。对于申请时技术能力的考核,请用户下载附件中的考核题目,并根据自己的看法进行回复。
3.内测人员有.net软件开发方面的能力更佳。2011版本的采集器会更加开放,我们会提供给用户更多的开发接口,有独立开发能力的朋友可以在我们软件的平台上开发出自己的采集器来。可以利用火车采集器强大的影响力来推广并获得更多的收益。
4.内测完成后,测试群将长期保留,测试人员可以参加其它我公司的软件测试及各种活动。
注:2011版本改动较多,内测完成后将进行公测,其他用户也不必焦急。以下为2011版的部分特性。
1.火车采集器2011致力于采集平台的搭建,用户可以利用平台提供的采集,发布以及其它的分词,ocr等api,来开发适合自己的应用。
2.支持安装为系统服务,支持httpServer,支持主从服务模式(服务端+客户端)
3.可视化DOM树规则编写 xpath提取网页数据
4.web发布时,支持json,xml等格式数据的发布.
5.自动登陆功能和登陆状态维护,多域名登陆
6.一键转载,类似于海纳的一键转载功能(需要采集规则支持)
7.Rss采集源自动识别
8.集成火车头网页正文提取模块和通用OCR识别模块等
9.增加mongod数据库支持,更好支持海量数据采集
10.支持corn计划任务,更灵活的自动运行设置
11. 更多细节改变