将自己的数据导入采集数据库让采集器发布数据

作者:小文 发布于:2012-5-31 18:46 Thursday 分类:常见问题

有些朋友并不想通过火车采集器来采集数据,但又想通过火车采集器强大的发布功能来发布数据,这个要求是很容易实现的,请按以下步骤操作

1.新建一个任务,这操作会产生一个任务数据库,你然后通过其它方法将数据导入到这个数据库中。当然,这个任务你要设置发布。

2.在任务数据库中,将已采设置为true或1,mysql,sqlserver是1.

3.开始运行任务,不要选采网址和采内容,只选发内容即可。

标签: 导入

评论(0) 引用(0) 浏览(8708)

本地保存数据库,如mysql,sqlserver修改密码后的处理办法

作者:小文 发布于:2012-5-31 14:36 Thursday 分类:常见问题

如果你的数据库密码修改了,那么采集器会在采集时链接不上数据库。这时,你需要对采集器配置文件进行一些修改,而不必要去转换数据库。修改的文件是 Extensions\LocoySpider\Database.xml .其中的参数请对照原值修改,然后重启采集器即可正常。

标签: 修改密码

评论(0) 引用(0) 浏览(4329)

字体“Comic Sans MS”不支持样式“Regular”的解决办法

作者:小文 发布于:2012-5-16 19:42 Wednesday 分类:常见问题

当出现这个提示时,请下载附件中的字体安装即可。

2012-05-09 15:44:01,086 [1] ERROR System.Object [(null)] - UI Exception:
System.ArgumentException: 字体“Comic Sans MS”不支持样式“Regular”。
   在 System.Drawing.Font.CreateNativeFont()
   在 System.Drawing.Font.Initialize(FontFamily family, Single emSize, FontStyle style, GraphicsUnit unit, Byte gdiCharSet, Boolean gdiVerticalFont)
   在 System.Drawing.Font.Initialize(String familyName, Single emSize, FontStyle style, GraphicsUnit unit, Byte gdiCharSet, Boolean gdiVerticalFont)
   在 System.Drawing.Font..ctor(String familyName, Single emSize)
   在 ImageComboBox.ImageComboBox.O101l001l0lO01011Ol1l0(DrawItemEventArgs O)
   在 ImageComboBox.ImageComboBox.OnDrawItem(DrawItemEventArgs O)
   在 System.Windows.Forms.ComboBox.WmReflectDrawItem(Message& m)
   在 System.Windows.Forms.ComboBox.WndProc(Message& m)
   在 System.Windows.Forms.Control.ControlNativeWindow.OnMessage(Message& m)
   在 System.Windows.Forms.Control.ControlNativeWindow.WndProc(Message& m)
   在 System.Windows.Forms.NativeWindow.Callback(IntPtr hWnd, Int32 msg, IntPtr wparam, IntPtr lparam)

 

标签: 字体

评论(0) 引用(0) 浏览(19176)

火车采集器v7版新浪评论采集插件

作者:小文 发布于:2012-5-15 20:41 Tuesday 分类:免费插件

这个插件是对多页中的第一个页面进行了分析,获取到分页总数,然后生成了分页让采集器下载,涉及的代码为

        public List<string> GetPagesUrl(int level, string pageurl, string html, string pagesStyle, string pagesCombine)
        {
            List<string> urls = new List<string>();
            //"show": 127}, http://comment5.news.sina.com.cn/page/info?format=js&jsvar=pagedata&channel=gn&newsid=1-1-24331859&group=0&page=1&list=all&sort=0

http://news.sina.com.cn/c/2012-04-26/061224331859.shtml


            if (level == 1 && pageurl.Contains("page=1&"))
            {
              string sign="show\": ";
              int pos = html.IndexOf(sign);
              if (pos > 0)
              {
                  int pos2 = html.IndexOf("}", pos);
                  if (pos2 > 0)
                  {
                      int count = int.Parse(html.Substring(pos + sign.Length, pos2 - pos - sign.Length));
                      count = (int)Math.Ceiling((double)count / 20);
                      for (int i = 2; i < count + 1; i++)
                      {
                          urls.Add(pageurl.Replace("page=1", "page=" + i.ToString()));
                      }
                  }
              }
            }
            return urls;
        }

 

  public bool UseGetPagesUrl
        {
            get { return true; }
        }

 

规则请在附件中下载

 点击查看原图点击查看原图

标签: 新浪

评论(1) 引用(0) 浏览(8454)

OCR插件生成器(最后更新2014.06.11)

作者:小文 发布于:2012-5-8 15:05 Tuesday 分类:其它资源

火车采集器本身自带的ocr功能可以识别大部分常规的字母和数字。但在遇到特殊的字体时可能会出现部分识别错误。为此,我们将10版本带的按特征码识别的程序重新进行了修改,使其可以很方便的生成我们的C#插件。该程序可以单独运行。大家可以先打开自带的两个项目进行测试学习。需要注意的是:该工具只适用于那些字体字形固定的识别。

点击查看原图

使用方法是:

1.输入一个图片地址,点击下载,使用图片显示出来

2.点击识别,对每个图片所对应的值进行校正后,点击ok,则该特征码将添加进去。

3.测试尽可能多的图片,使结果精确。

4.确认识别已无问题,点击工具菜单,点击编辑为插件,设置好生成dll的文件名,程序要识别的标签名,然后就可以在当前程序目录下生成一个dll文件。

点击查看原图

5.在火车采集器中测试该插件

6.保存该项目,以便下次使用。

 

标签: ocr

评论(4) 引用(0) 浏览(27338)

Powered by emlog