lighttpd服务器下发布不成功解决办法

作者:小文 发布于:2010-11-12 17:39 Friday 分类:常见问题

由于lighttpd1.4.21之前的版本不支持Expect: 100-continue,所以有可能访问出现“HTTP/1.1 417 Expectation Failed”等错误提示.当您使用一些vps或lighttpd架设的服务器,用火车采集器无法发布成功时,可以修改采集器全局选项中的 http设置,将 Expect100Continue  不选

参考资料:http://www.codigg.com/2010/04/lighttpd-expect-100-417-continue/

评论(0) 引用(0) 浏览(8933)

一个复杂的多页采集案例(11.12)

作者:小文 发布于:2010-11-12 16:38 Friday 分类:软件培训

本次示例网站 http://www.zhixiaoren.com/friend/search.asp?JobCorp=%D1%C5%B7%BC

我们需要采集 从业状态,从事企业,所属团队,现所在地,自我介绍,联系方式的信息.

有不会采集的朋友可以自己注册一个帐号看测试一下,

评论(0) 引用(0) 浏览(10675)

火车采集器2011目标

作者:小文 发布于:2010-11-8 10:05 Monday 分类:官方公告

1.软件使用cs结构
服务端负责数据的采集处理工作,客户端用来进行配置的修改。服务端做为系统服务在后台运行。
2.数据采集流程可变
可以实现多级及复杂数据的采集和保存。
3.海量数据保存
使用nosql数据库,数据保存不再是瓶颈。

评论(0) 引用(0) 浏览(5001)

使用插件配合采集器过滤不需要的数据(PHP)

作者:小文 发布于:2010-10-26 9:12 Tuesday 分类:免费插件

有时我们需要对采集的内容长度进行限制.比如标题长度不得小于3大于20,并且不能包含某些字符串.我们可以在插件中写相关的代码,将采集的数据清设置为空,然后在采集器的标签设置中,设置该标签内容不得为空,然后在系统设置中设置内容不符合时删除记录,就可以快速的将不需要的代码删除掉了.以后是PHP的示例代码.

<?php
if(array_key_exists('标题',$LabelArray))
{
    $title=$LabelArray['标题'];
    if(strlen($title)<3||strlen($title)>20||strpos($title,'╩')!==false) $LabelArray['标题']='';
}

echo serialize($LabelArray);
?>

评论(0) 引用(0) 浏览(19265)

新浪微博评论及转发数采集插件(C#)

作者:小文 发布于:2010-10-25 16:28 Monday 分类:免费插件

该插件可以获取一个躯微博对应的转发数及评论数.使用方法如下:

1.开启使用插件,在保存时选择该插件

2.新建mid,转发数,评论数三个标签,其中mid就是对应的微博id

标签: 微博

评论(3) 引用(0) 浏览(19377)

Powered by emlog