一个特殊的网站的数据的采集,主讲算法(11.22)
作者:小文 发布于:2010-11-17 21:26 Wednesday 分类:软件培训
这个站,http://life.lygbst.cn/LifeComm/Colligation.aspx?AreaID=0 里边的详细内容是经过特殊处理的,我们需要使用插件将其还原.
关于中华英才网的网址列表采集(11.20)
作者:小文 发布于:2010-11-17 19:56 Wednesday 分类:软件培训
我们在中华英才网进行职位搜索时,会发现它的网址一直是变化的,比如 http://searchjob.chinahr.com/ ,我们从这个页面上输入关键字和其它条件时,就可以获取内容.
但我们要获取这个网址列表是不容易的,经分析,它的网址是经过urlencode,baseb6加密等方法进行处理的,直接是无法获取的.本次我们只讲一下如何分析这个网址.
需要的工具:
fiddler,firefox(组件firebug).
参考代码:
2
base64_decode
occIDList%3D604%252c600%26occParentIDList%3D604%252c600%26myLocIDList%3D30000%26myLocParentIDList%3D30000%26companyTypeIDList%3D%26isInterView%3D1%26from%3Dsearch%26IsModel%3Dfalse%26positionName%3D%25u9879%25u76ee%26prj%3Dwww1%26sj%3D1%26curPage%3D2%26pageSize%3D20%26recordCount%3D2000%26orderField%3D%26order%3DDESC
urldecode
occIDList=604%2c600&occParentIDList=604%2c600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=%u9879%u76ee&prj=www1&sj=1&curPage=2&pageSize=20&recordCount=2000&orderField=&order=DESC
urldecode
occIDList=604,600&occParentIDList=604,600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=项目&prj=www1&sj=1&curPage=2&pageSize=20&recordCount=2000&orderField=&order=DESC
1
occIDList%3D604%252c600%26occParentIDList%3D604%252c600%26myLocIDList%3D30000%26myLocParentIDList%3D30000%26companyTypeIDList%3D%26isInterView%3D1%26from%3Dsearch%26IsModel%3Dfalse%26positionName%3D%25u9879%25u76ee%26prj%3Dwww1%26sj%3D1%26curPage%3D1%26pageSize%3D20%26recordCount%3D2000%26orderField%3D%26order%3DDESC
occIDList=604%2c600&occParentIDList=604%2c600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=%u9879%u76ee&prj=www1&sj=1&curPage=1&pageSize=20&recordCount=2000&orderField=&order=DESC
occIDList=604%2c600&occParentIDList=604%2c600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=%e9%a1%b9%e7%9b%ae&prj=www1
occIDList%3d604%2c600%26occParentIDList%3d604%2c600%26myLocIDList%3d30000%26myLocParentIDList%3d30000%26companyTypeIDList%3d%26isInterView%3d1%26from%3dsearch%26IsModel%3dfalse%26positionName%3d%e9%a1%b9%e7%9b%ae%26prj%3dwww1%26curPage%3d1%26pageSize%3d20%26recordCount%3d2000%26orderField%3d%26order%3dDesc%26sj%3d1
occIDList=604,600&occParentIDList=604,600&myLocIDList=30000&myLocParentIDList=30000&companyTypeIDList=&isInterView=1&from=search&IsModel=false&positionName=项目&prj=www1&sj=1&curPage=1&pageSize=20&recordCount=2000&orderField=&order=DESC
使用Post方法采集获取网址列表(2010.11.16)
作者:小文 发布于:2010-11-15 16:16 Monday 分类:软件培训
我们以 http://www.bookuu.com/search/book_search.jsp 为例,讲一下如何使用post采集.请大家先查看帮助手册中的 POST方式获得网址 一节内容.
lighttpd服务器下发布不成功解决办法
作者:小文 发布于:2010-11-12 17:39 Friday 分类:常见问题
由于lighttpd1.4.21之前的版本不支持Expect: 100-continue,所以有可能访问出现“HTTP/1.1 417 Expectation Failed”等错误提示.当您使用一些vps或lighttpd架设的服务器,用火车采集器无法发布成功时,可以修改采集器全局选项中的 http设置,将 Expect100Continue 不选
参考资料:http://www.codigg.com/2010/04/lighttpd-expect-100-417-continue/
一个复杂的多页采集案例(11.12)
作者:小文 发布于:2010-11-12 16:38 Friday 分类:软件培训
本次示例网站 http://www.zhixiaoren.com/friend/search.asp?JobCorp=%D1%C5%B7%BC
我们需要采集 从业状态,从事企业,所属团队,现所在地,自我介绍,联系方式的信息.
有不会采集的朋友可以自己注册一个帐号看测试一下,
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。