火车采集器v7版新浪评论采集插件
作者:小文 发布于:2012-5-15 20:41 Tuesday 分类:免费插件
这个插件是对多页中的第一个页面进行了分析,获取到分页总数,然后生成了分页让采集器下载,涉及的代码为
public List<string> GetPagesUrl(int level, string pageurl, string html, string pagesStyle, string pagesCombine){
List<string> urls = new List<string>();
//"show": 127}, http://comment5.news.sina.com.cn/page/info?format=js&jsvar=pagedata&channel=gn&newsid=1-1-24331859&group=0&page=1&list=all&sort=0,
http://news.sina.com.cn/c/2012-04-26/061224331859.shtml
if (level == 1 && pageurl.Contains("page=1&"))
{
string sign="show\": ";
int pos = html.IndexOf(sign);
if (pos > 0)
{
int pos2 = html.IndexOf("}", pos);
if (pos2 > 0)
{
int count = int.Parse(html.Substring(pos + sign.Length, pos2 - pos - sign.Length));
count = (int)Math.Ceiling((double)count / 20);
for (int i = 2; i < count + 1; i++)
{
urls.Add(pageurl.Replace("page=1", "page=" + i.ToString()));
}
}
}
}
return urls;
}
public bool UseGetPagesUrl
{
get { return true; }
}
规则请在附件中下载
标签: 新浪
58验证码识别(最后更新2016.5.26)
作者:小余 发布于:2012-5-15 15:23 Tuesday 分类:免费插件
请先下载 58电话识别采集规则.rar,解压后导入采集规则,然后关闭火车采集器,删除掉Plugins文件夹下的 58验证码.dll ,然后再下载另一个压缩包,解压其中的 58验证码.dll 文件到文件夹Plugins下,再打开采集器,就可以看到插件了。如果您v7版本导入成功后看不到插件,请下载最新版本再导入。现在插件是自动识别后,将结果保存在字符串<tel>电话号码</tel>中,如图,具体设置可以看示例采集规则。
有些不能识别的号码,插件是将不能识别的保存在了58_error.log文件中。如果您认为插件识别错误,请将这个文件中的记录发给我们。我们会第一时间更新该插件。
标签: 58
OCR插件生成器(最后更新2014.06.11)
作者:小文 发布于:2012-5-8 15:05 Tuesday 分类:其它资源
火车采集器本身自带的ocr功能可以识别大部分常规的字母和数字。但在遇到特殊的字体时可能会出现部分识别错误。为此,我们将10版本带的按特征码识别的程序重新进行了修改,使其可以很方便的生成我们的C#插件。该程序可以单独运行。大家可以先打开自带的两个项目进行测试学习。需要注意的是:该工具只适用于那些字体字形固定的识别。
使用方法是:
1.输入一个图片地址,点击下载,使用图片显示出来
2.点击识别,对每个图片所对应的值进行校正后,点击ok,则该特征码将添加进去。
3.测试尽可能多的图片,使结果精确。
4.确认识别已无问题,点击工具菜单,点击编辑为插件,设置好生成dll的文件名,程序要识别的标签名,然后就可以在当前程序目录下生成一个dll文件。
5.在火车采集器中测试该插件
6.保存该项目,以便下次使用。
标签: ocr
所有任务在同一个窗口中运行
作者:小文 发布于:2012-5-5 10:37 Saturday 分类:功能介绍
目前火车采集器默认是每个任务在运行时都单独开一个窗口。在很多任务运行的情况下,该设置会占用较多的资源。 同时,很多采集设置完了以后就不再去管理了,每个任务开一个运行窗口也没有人去看,也没必要。
现在我们增加了一个新的功能。可以将多个任务运行结果显示在同一个窗口中,节省资源占用。最终只显示失败的结果。该功能设置如下,如果您的程序中无此设置,请下载手动更新包更新采集器
运行结果
标签: 节能
登录界面或自动升级界面错位的解决办法
作者:小文 发布于:2012-5-4 17:00 Friday 分类:常见问题
有时,商业用户登录会遇到这种情况,如图
出现这种情况是因为用户修改了系统的默认dpi,目前的解决办法是用户将系统设置修改成默认即可。处理办法如下:
1.win7
控制面板->外观和个性化->显示->放大和缩小其它项目->设置自定义文本大小(DPI) 选择100%,然后注销电脑即可。
2.xp
控制面板->显示->属性->高级->常规->DPI设置 修改成96 DPI.然后注销电脑即可。
标签: 错位
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。