v7版本火车采集器UBB设置视频教程

作者:小文 发布于:2012-3-29 10:50 Thursday 分类:软件培训

新版本的随机用户名,ubb等操作都放在了数据构造部分,用户通过数据构造对发布前的数据再进行处理

该视频教程显示了如何设置ubb.

 

标签: ubb

评论(0) 引用(0) 浏览(7767)

数据包抓取软件fiddler的使用培训(3.27)

作者:小文 发布于:2012-3-22 14:25 Thursday 分类:软件培训

培训时间:3.27晚8:00-9:00

培训地址:YY语音70912320,QQ群59109231以及其它的VIP群。语音和文字同时直播。

培训目的:通过使用fiddler,让用户了解最基本的http请求原理,了解一些post请求过程。掌握如何查找需要采集的目标网页的真实地址。

附件中为fiddler的ppt文档.需要参加的朋友请加QQ群和YY群,在开始前如果大家有问题,请在本帖留言或是发邮件至tech@locoy.com咨询

 

其它培训教程:http://www.cnblogs.com/TankXiao/archive/2012/02/06/2337728.html

标签: fiddler

评论(4) 引用(0) 浏览(8416)

YY语音火车采集器V7版本特性介绍(3.8)

作者:小文 发布于:2012-3-7 16:38 Wednesday 分类:软件培训

火车采集器7.0发布已经半个多月了,对于新版本的一些特性,很多朋友还没有了解清楚。3.8号晚20:00-22:00,我们将开展一次软件使用培训活动,所有感兴趣的朋友都可以参加。欢迎大家整理自己的问题,我们到时会一一回答。

YY群号:70912320

V7的特性介绍:http://board.locoy.com/?post=91

标签: 特性

评论(1) 引用(0) 浏览(5948)

使用php插件应对不同格式的分页样式

作者:小文 发布于:2011-6-1 14:59 Wednesday 分类:软件培训

有的网站使用多种模板显示分页地址,这种情况下我们要获取分页地址就非常困难了。不过我们可以通过插件的功能,自己编写程序判断并生成分页的地址,然后让采集器去获取到。我们的例子如下:

本次测试的网址:

http://www.diyifanwen.com/fanwen/lunwenzhidao/1141715512857992.htm
http://www.diyifanwen.com/fanwen/zhuchici/20101011222334115874624.htm

我们分析其分页地址,可以看到不同的分页样式和代码

点击查看原图

点击查看原图

 

点击查看原图

点击查看原图

 

对于这种基本没规律的分页,我们无法判断分页的区域,也无法直接得知其总分页数,该怎么办呢?

经分析可以得知,分页的规律是在原网址后加上分页页码,如 默认页是1141715512857992.htm,则分页是 1141715512857992_2.htm 。因为这个分页是全部列出的,我们就有办法了:可以去循环查找是否有分页地址存在,有存在则说明有这个分页,然后我们生成存在的网页地址即可。我们用php来写插件。

点击查看原图

插件中判断了当前页面类型,然后对整个内容页代码进行修改,生成有分页的代码。

在采集器中,插件使用位置如下

点击查看原图

最后的结果如下

点击查看原图

注意设置这里的分页区域和插件中的一致。

到这里,这个分页的处理就完成了。

如果我们有时遇到更复杂的怎么办,如 无法确认有几个分页,是上下页模式的,这时用插件可以使用笨办法,先探测一下下一页是否存在,如果存在则加入,不存在就跳过。


附件中为本次的规则和插件。大家可以再研究一下。

标签: php 插件

评论(1) 引用(0) 浏览(8491)

一个脚本网址的采集办法(11.24)

作者:小文 发布于:2010-11-17 21:49 Wednesday 分类:软件培训

示例网址:http://news.jyb.cn/zyjy/zyjyxw/201005/t20100512_359552.html

这个可以考虑使用插件,我们讲一下如何制作插件

评论(0) 引用(0) 浏览(5767)

Powered by emlog