网站抓取精灵火车采集器如何获取内容网址

作者:dong 发布于:2016-5-16 16:13 Monday 分类:官方公告

  我们在使用网站抓取精灵​做采集时,往往需要先从网页的初始网址开始获取内容页网址,那么火车采集器进入列表页后,如何进一步获取内容网址呢,下面就请新手们一起来看看内容页网址采集规则如何制作。
    在火车采集器V9中,内容网址获取有常规模式和高级模式两种。
    1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。它有两种方式:a.自动获取地址链接 b.手动设置规则获取。
    2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。即起始网址就是内容页网址;或者需要对多级列表网址采集才能得到最终内容页链接;或者是post网址类型抓取等情况下使用高级模式。
    这里详细说明下常规模式中a和b两种方式采集的具体操作,高级模式待后续讲解。
[常规模式]a.自动获取地址链接
     自动获取地址链接:自动获取该级列表页中所有的标签<a href="URL">内的URL链接。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

获取结果如图:

规则1.png

    根据统计我们可以看到,发现共计81个一级网址,但实际我们需要抓取的1级网址是每页40个,说明其中有我们不需要的链接,所以我们可以通过区域设置链接过滤,来筛选获取我们所需要的链接。用浏览器点击查看网页源代码,分析源码得出,所需链接应符合以下条件:
开始字符串为
<ul> 
结尾字符串为 <!-- 分页 begin -->

    我们将其填入设置区域,再进行测试一次,并查看结果。通过测试可以看出结果是正确的,如下图。

规则2.png

规则3.png


[常规模式]b.手动设置规则获取

    对于有些由脚本生成的网址,采集器不能自动识别,此时就要手动设置规则获取了。手动设置规则获取的原理是编写脚本规则,去和源代码里的内容匹配,获取到自己设置的参数即可。其中提取规则里的[参数]、(*) [标签:XXX] 都是通配符,可以统配任意字符,而区别在于[参数]有返回值,一般用于拼接地址,(*)没有返回值,[标签:XXX]有返回值,返回值给标签。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

有如下源码:

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部门责任清单 建立拒腐机制</a><span>(10月10日 20:20)</span></li>

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市长被举报建寺涉贪 与释延鲁关系密切</a><span>(10月10日 20:14)</span></li>

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">张家界国土局副局长涉严重违纪被查</a><span>(10月10日 19:45)</span></li>

    此时,我们可以取其中的一条代码作为循环匹配,把我们要获取的链接替换成[参数],需要采集到的值替换成标签。 如下填写提取规则:

    <li><a href="[参数]" target="_blank">[标签:标题]</a><span>([标签:时间]) </span></li>

规则4.png

 如上图,这样符合该格式的源码就会进行自动匹配,参数中获取到的就是内容页地址链接,标签中就分布是标题和时间了。

    到这里,网站抓取精灵火车采集器V9获取内容网址的常规模式设置就完成了,大家只要看过就会觉得比较简单,火车采集器V9软件需要大家多学习,这样上手就会非常容易了。

标签: 火车采集器V9 网站抓取精灵

发表评论:

Powered by emlog