将自己的数据导入采集数据库让采集器发布数据
作者:小文 发布于:2012-5-31 18:46 Thursday 分类:常见问题
有些朋友并不想通过火车采集器来采集数据,但又想通过火车采集器强大的发布功能来发布数据,这个要求是很容易实现的,请按以下步骤操作
1.新建一个任务,这操作会产生一个任务数据库,你然后通过其它方法将数据导入到这个数据库中。当然,这个任务你要设置发布。
2.在任务数据库中,将已采设置为true或1,mysql,sqlserver是1.
3.开始运行任务,不要选采网址和采内容,只选发内容即可。
标签: 导入
本地保存数据库,如mysql,sqlserver修改密码后的处理办法
作者:小文 发布于:2012-5-31 14:36 Thursday 分类:常见问题
如果你的数据库密码修改了,那么采集器会在采集时链接不上数据库。这时,你需要对采集器配置文件进行一些修改,而不必要去转换数据库。修改的文件是 Extensions\LocoySpider\Database.xml .其中的参数请对照原值修改,然后重启采集器即可正常。标签: 修改密码
字体“Comic Sans MS”不支持样式“Regular”的解决办法
作者:小文 发布于:2012-5-16 19:42 Wednesday 分类:常见问题
当出现这个提示时,请下载附件中的字体安装即可。
2012-05-09 15:44:01,086 [1] ERROR System.Object [(null)] - UI Exception:
System.ArgumentException: 字体“Comic Sans MS”不支持样式“Regular”。
在 System.Drawing.Font.CreateNativeFont()
在 System.Drawing.Font.Initialize(FontFamily family, Single emSize, FontStyle style, GraphicsUnit unit, Byte gdiCharSet, Boolean gdiVerticalFont)
在 System.Drawing.Font.Initialize(String familyName, Single emSize, FontStyle style, GraphicsUnit unit, Byte gdiCharSet, Boolean gdiVerticalFont)
在 System.Drawing.Font..ctor(String familyName, Single emSize)
在 ImageComboBox.ImageComboBox.O101l001l0lO01011Ol1l0(DrawItemEventArgs O)
在 ImageComboBox.ImageComboBox.OnDrawItem(DrawItemEventArgs O)
在 System.Windows.Forms.ComboBox.WmReflectDrawItem(Message& m)
在 System.Windows.Forms.ComboBox.WndProc(Message& m)
在 System.Windows.Forms.Control.ControlNativeWindow.OnMessage(Message& m)
在 System.Windows.Forms.Control.ControlNativeWindow.WndProc(Message& m)
在 System.Windows.Forms.NativeWindow.Callback(IntPtr hWnd, Int32 msg, IntPtr wparam, IntPtr lparam)
标签: 字体
火车采集器v7版新浪评论采集插件
作者:小文 发布于:2012-5-15 20:41 Tuesday 分类:免费插件
这个插件是对多页中的第一个页面进行了分析,获取到分页总数,然后生成了分页让采集器下载,涉及的代码为
public List<string> GetPagesUrl(int level, string pageurl, string html, string pagesStyle, string pagesCombine){
List<string> urls = new List<string>();
//"show": 127}, http://comment5.news.sina.com.cn/page/info?format=js&jsvar=pagedata&channel=gn&newsid=1-1-24331859&group=0&page=1&list=all&sort=0,
http://news.sina.com.cn/c/2012-04-26/061224331859.shtml
if (level == 1 && pageurl.Contains("page=1&"))
{
string sign="show\": ";
int pos = html.IndexOf(sign);
if (pos > 0)
{
int pos2 = html.IndexOf("}", pos);
if (pos2 > 0)
{
int count = int.Parse(html.Substring(pos + sign.Length, pos2 - pos - sign.Length));
count = (int)Math.Ceiling((double)count / 20);
for (int i = 2; i < count + 1; i++)
{
urls.Add(pageurl.Replace("page=1", "page=" + i.ToString()));
}
}
}
}
return urls;
}
public bool UseGetPagesUrl
{
get { return true; }
}
规则请在附件中下载
标签: 新浪
OCR插件生成器(最后更新2014.06.11)
作者:小文 发布于:2012-5-8 15:05 Tuesday 分类:其它资源
火车采集器本身自带的ocr功能可以识别大部分常规的字母和数字。但在遇到特殊的字体时可能会出现部分识别错误。为此,我们将10版本带的按特征码识别的程序重新进行了修改,使其可以很方便的生成我们的C#插件。该程序可以单独运行。大家可以先打开自带的两个项目进行测试学习。需要注意的是:该工具只适用于那些字体字形固定的识别。
使用方法是:
1.输入一个图片地址,点击下载,使用图片显示出来
2.点击识别,对每个图片所对应的值进行校正后,点击ok,则该特征码将添加进去。
3.测试尽可能多的图片,使结果精确。
4.确认识别已无问题,点击工具菜单,点击编辑为插件,设置好生成dll的文件名,程序要识别的标签名,然后就可以在当前程序目录下生成一个dll文件。
5.在火车采集器中测试该插件
6.保存该项目,以便下次使用。
标签: ocr
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。