网页数据抓取之自动分类功能
作者:dong 发布于:2016-9-10 16:57 Saturday 分类:官方公告
我们在使用火车采集器进行数据抓取的时候,会需要将采集内容包含某个字段的所有内容都替换为某个固定的内容。使用场景如:我们从某网站上采集城市名称,然后城市名称示例为:浙江省杭州市,但我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。
下面以百度为例介绍下用法,首先在火车采集器V9建立规则,内容采集规则的标签编辑如下:
如上图,我们想要将包含百度的标题 内容更替换为“常用搜索网站”,则写成如下格式:
运行结果为:
上述就是数据抓取时将某字段所有内容自动分类的使用方法,在操作中还需要注意的是:
1、一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,火车采集器中是按照从上至下的原则替换。
2、若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:
学会数据抓取的自动分类操作,对包含同类字段的内容进行分类就方便多了,大家也操作试试吧。
标签: 火车采集器V9
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。
发表评论: