一个特殊的网站的数据的采集,主讲算法(11.22)

作者:小文 发布于:2010-11-17 21:26 Wednesday 分类:软件培训

这个站,http://life.lygbst.cn/LifeComm/Colligation.aspx?AreaID=0 里边的详细内容是经过特殊处理的,我们需要使用插件将其还原.

评论(0) 引用(0) 浏览(6053)

关于中华英才网的网址列表采集(11.20)

作者:小文 发布于:2010-11-17 19:56 Wednesday 分类:软件培训

我们在中华英才网进行职位搜索时,会发现它的网址一直是变化的,比如 http://searchjob.chinahr.com/ ,我们从这个页面上输入关键字和其它条件时,就可以获取内容.

但我们要获取这个网址列表是不容易的,经分析,它的网址是经过urlencode,baseb6加密等方法进行处理的,直接是无法获取的.本次我们只讲一下如何分析这个网址.


需要的工具:

fiddler,firefox(组件firebug).


参考代码:

 

2
base64_decode
occIDList%3D604%252c600%26occParentIDList%3D604%252c600%26myLocIDList%3D30000%26myLocParentIDList%3D30000%26companyTypeIDList%3D%26isInterView%3D1%26from%3Dsearch%26IsModel%3Dfalse%26positionName%3D%25u9879%25u76ee%26prj%3Dwww1%26sj%3D1%26curPage%3D2%26pageSize%3D20%26recordCount%3D2000%26orderField%3D%26order%3DDESC
urldecode
occIDList=604%2c600&occParentIDList=604%2c600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=%u9879%u76ee&prj=www1&sj=1&curPage=2&pageSize=20&recordCount=2000&orderField=&order=DESC
urldecode
occIDList=604,600&occParentIDList=604,600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=项目&prj=www1&sj=1&curPage=2&pageSize=20&recordCount=2000&orderField=&order=DESC




1

occIDList%3D604%252c600%26occParentIDList%3D604%252c600%26myLocIDList%3D30000%26myLocParentIDList%3D30000%26companyTypeIDList%3D%26isInterView%3D1%26from%3Dsearch%26IsModel%3Dfalse%26positionName%3D%25u9879%25u76ee%26prj%3Dwww1%26sj%3D1%26curPage%3D1%26pageSize%3D20%26recordCount%3D2000%26orderField%3D%26order%3DDESC

occIDList=604%2c600&occParentIDList=604%2c600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=%u9879%u76ee&prj=www1&sj=1&curPage=1&pageSize=20&recordCount=2000&orderField=&order=DESC

occIDList=604%2c600&occParentIDList=604%2c600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=%e9%a1%b9%e7%9b%ae&prj=www1

occIDList%3d604%2c600%26occParentIDList%3d604%2c600%26myLocIDList%3d30000%26myLocParentIDList%3d30000%26companyTypeIDList%3d%26isInterView%3d1%26from%3dsearch%26IsModel%3dfalse%26positionName%3d%e9%a1%b9%e7%9b%ae%26prj%3dwww1%26curPage%3d1%26pageSize%3d20%26recordCount%3d2000%26orderField%3d%26order%3dDesc%26sj%3d1


occIDList=604,600&occParentIDList=604,600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=项目&prj=www1&sj=1&curPage=1&pageSize=20&recordCount=2000&orderField=&order=DESC
 

评论(3) 引用(0) 浏览(7587)

使用Post方法采集获取网址列表(2010.11.16)

作者:小文 发布于:2010-11-15 16:16 Monday 分类:软件培训

我们以 http://www.bookuu.com/search/book_search.jsp 为例,讲一下如何使用post采集.请大家先查看帮助手册中的 POST方式获得网址 一节内容.

评论(2) 引用(0) 浏览(5990)

一个复杂的多页采集案例(11.12)

作者:小文 发布于:2010-11-12 16:38 Friday 分类:软件培训

本次示例网站 http://www.zhixiaoren.com/friend/search.asp?JobCorp=%D1%C5%B7%BC

我们需要采集 从业状态,从事企业,所属团队,现所在地,自我介绍,联系方式的信息.

有不会采集的朋友可以自己注册一个帐号看测试一下,

评论(0) 引用(0) 浏览(10283)

火车采集器插件功能详解

作者:小文 发布于:2010-9-24 11:29 Friday 分类:软件培训

火车采集器2010版增加了多处插件处理点,可以更方便用户的二次开发.

点击查看原图

对于各部分插件的说明及使用方法如下:

1.采网址:

该处的插件可以对1级,2级网址的采集起作用(也就是说0级网址的采集不会使用插件).插件会对火车采集器0级,1级网址请求回来的html代码进行处理,处理完的html代码交给采集器,采集器再进行网址提取和过滤.

需要注意的问题是如果您使用了2级网址采集,在插件处理0级或是1级网址所请求回来的代码时,您需要自己分析请求的网址和内容,从而知道您到底是处理0级还是1级html内容处理.

2.采内容:

该处的插件是采集器将默认页源代码下载完成后,将整个html代码交给插件处理.插件可以对html代码进行添加,删除等操作.比如默认页中有js脚本生成动态网址,您需要多页采集这个动态网址内的内容,则可以写程序生成 多页地址,然后用采集器去获取其中的地址,然后用采集器的多页功能处理.比如有些动态生成的下载地址,您可以写程序生成,然后用采集器获取并下载.

3.采多页:

该处的插件是采集器将多页代码下载完成后,将整个html代码交给插件处理.然后采集器再从处理后的代码中分析获取标签内容,下载文件等操作.

需要注意的一点是,如果有多个多页,每个多页地址采集器都会处理.对于插件如何知道自己在处理哪个多页,请根据传入的网址及内容由开发者写代码判定.

4.保存时:

该处的插件是采集器已完成标签的提取,文件的下载,然后在保存到数据库之前所做的处理.该插件传入的参数和其它三个插件不是,它是一个数组,是标签名对应标签值的组合.用户可以在这里对标签的值进行处理,比如价格的计算,单位的转化.该插件的操作位于火车采集器标签的不符合内容处理前,因此,您也可以设定标签的值为特定的值,从而实现不保存或是删除该记录的功能.如果您设置了数据库中不得有重复记录,也可以使用该插件,实现有不得重复的数据的处理.

 

一个插件可以同时包含其它的页面的代码.如可以有处理列表网址页的代码,也可以有处理保存时的代码.具体的调用请参见开发示例.

 

PHP插件及C#插件的开发非常简单,具体请参见默认的开发示例.在插件管理器中,选择新建插件,即可以看到默认的开发环境及说明.

标签: 插件

评论(3) 引用(0) 浏览(20015)

Powered by emlog