使用php插件应对不同格式的分页样式
作者:小文 发布于:2011-6-1 14:59 Wednesday 分类:软件培训
有的网站使用多种模板显示分页地址,这种情况下我们要获取分页地址就非常困难了。不过我们可以通过插件的功能,自己编写程序判断并生成分页的地址,然后让采集器去获取到。我们的例子如下:
本次测试的网址:
http://www.diyifanwen.com/fanwen/lunwenzhidao/1141715512857992.htm
http://www.diyifanwen.com/fanwen/zhuchici/20101011222334115874624.htm
我们分析其分页地址,可以看到不同的分页样式和代码
对于这种基本没规律的分页,我们无法判断分页的区域,也无法直接得知其总分页数,该怎么办呢?
经分析可以得知,分页的规律是在原网址后加上分页页码,如 默认页是1141715512857992.htm,则分页是 1141715512857992_2.htm 。因为这个分页是全部列出的,我们就有办法了:可以去循环查找是否有分页地址存在,有存在则说明有这个分页,然后我们生成存在的网页地址即可。我们用php来写插件。
插件中判断了当前页面类型,然后对整个内容页代码进行修改,生成有分页的代码。
在采集器中,插件使用位置如下
最后的结果如下
注意设置这里的分页区域和插件中的一致。
到这里,这个分页的处理就完成了。
如果我们有时遇到更复杂的怎么办,如 无法确认有几个分页,是上下页模式的,这时用插件可以使用笨办法,先探测一下下一页是否存在,如果存在则加入,不存在就跳过。
附件中为本次的规则和插件。大家可以再研究一下。
附件下载:
pages.7z 3.66KB
评论:
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。
2011-07-22 16:43