火车采集器官方博客
火车头网页正文提取演示程序
post by:火车头 2010-12-21 17:40

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。

正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。

该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。

点击查看原图

该功能的测试请下载V8版本火车采集器,在高级菜单的“正文提取测试”中测试该功能。

评论:
www.ad0537.com
2012-03-29 09:02 回复
很给力的专业文章!!我顶!顶!顶!
www.qiawei.com
2011-12-30 10:02 回复
不错,支持下!
oooo
2011-09-05 15:51 回复
我喜欢采集。。。。。。
淘宝特卖网
2011-08-29 14:08 回复
很强大,,,,,,,,,,,
www.ad-mart.cn
2011-08-11 10:21 回复
很好很强大!
香港
2011-06-05 01:49 回复
不错,下载先
便民商城
2011-05-19 12:50 回复
非常不错的,支持
小文
2011-05-14 13:03 回复
@谢远熙:该软件目前还在完善,以后将做为公司的一个产品模块。目前的功能可以满足小型的应用。我们公司暂时还无开放代码的意向。如果你有这方面兴趣,我们可以共同探讨一下。
谢远熙
2011-05-14 12:01 回复
你好,我是一个大学生,因为要做毕业设计,所以需要网页净化,也是网页正文提取这块的辅助,我是做网页去重的,希望能够直接调用别人的接口来提取网页正文,请问下你们可以给我吗?希望能得到你们的回答,万分感谢
www.lyjgj.com
2011-04-10 07:51 回复
不错支持
电影百事通
2011-02-23 12:43 回复
百事通电影强烈支持
www.007sjzt.com
2011-02-22 13:32 回复
看起来到是很强大。支持一个····
nod32
2011-02-17 12:00 回复
nod32报毒
wakagekaka
2011-01-30 13:42 回复
可能又要是要钱的了
meego
2010-12-23 12:41 回复
确实比较强大哈。定一个。
发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容