火车头网页正文提取演示程序
作者:火车头 发布于:2010-12-21 17:40 Tuesday 分类:开发计划
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。
正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。
该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。
该功能的测试请下载V8版本火车采集器,在高级菜单的“正文提取测试”中测试该功能。
评论:
谢远熙
2011-05-14 12:01
2011-05-14 12:01
你好,我是一个大学生,因为要做毕业设计,所以需要网页净化,也是网页正文提取这块的辅助,我是做网页去重的,希望能够直接调用别人的接口来提取网页正文,请问下你们可以给我吗?希望能得到你们的回答,万分感谢
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。
2012-03-29 09:02