一团网火车采集器团购培训相关事项

作者:火车头 发布于:2012-8-10 16:52 Friday 分类:软件培训

1、  本次在线培训主要针对近期一团网组织的团购用户开设,共计六次,安排在813(周一)815(周三)817(周五)、820(周一)各一次,818日(周六)两次。普通用户也可以积极参加。

2、  具体时间点是:周一、周三 、周五的晚19:30开始,周六上午10点开始 下午15:00开始

3、  培训的时间长度根据培训人员授课的内容来决定

4、  本次培训以远程桌面,在线语音及及时的文字沟通方式在线展示给用户,用户需在培训开始前从本页面下载客户端软件(附件将在8月13日中午前后放出,请大家注意下载),下载解压后,运行"培训客户端.exe",登陆软件 按照软件的提示来操作。

5、  培训人员在培训时,注意观看远程桌面,先不要用语音工具提问,有问题可以用文字聊天工具提问,在培训人员结束培训后,客户有什么问题可以积极的提出。

培训内容请查看全文。。。

阅读全文>>

评论(5) 引用(0) 浏览(15738)

火车头通用OCR识别/验证码识别演示程序

作者:火车头 发布于:2011-3-9 15:16 Wednesday 分类:其它资源

引言: OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR识别在网站上广泛用于小幅图片的文本提取和验证码识别,以前很多识别程序都是基于特定网站,特定图片进行特征码分析。合肥乐维信息技术公司根据此前的技术积累,构架通用识别方案,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到软件开发中,服务广大站长。

 

该演示程序需要.net framework2.0 及支持 Microsoft Visual C++ 2008 SP1 Redistributable 支持。

.net framework2.0下载地址:
32位下载地址:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
64位下载地址:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe


Visual C++ 2008 SP1 Redistributable:http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2


直接打开 LeWellOCR.exe 运行演示程序

1、从本地或者指定URL地址 打开需要识别的图片
2、可选是否对图片进行一些简单的处理操作,如果需要请添加滤镜对图片进行去噪
3、设置白名单和黑名单字符串,即允许和不允许在结果中出现的字符串
4、开始测试识别!

内置了几个基础的测试样式大家可以直接在项目中加载测试。

58同城验证码识别.xml,
454.cn验证码识别.xml,
ageow.com验证码识别.xml,
baike.sxlbl.com验证码识别.xml,
china.alibaba.com验证码识别.xml,
dfrxb.com验证码识别.xml,
hfzs.cn验证码识别.xml,
my.home.new.cn验证码识别.xml,
passport.cntv.cn验证码.xml,
pconline验证码.xml,
phone.10086.cn验证码识别.xml,
tongxue.com验证码识别.xml,
valve365.com验证码识别.xml,
口碑验证码识别.xml,
上海热线图片识别.xml 等。更多的大家可供试验,成功识别的网站欢迎评论留言。

 

2011-03-21更新:我们已将该功能做成火车采集器的插件,可成功运用到火车采集器2010版中,旗舰版企业版用户可以直接免费使用,请直接向您所属客服索要该识别插件。 详细内容见:  火车采集器通用OCR识别.NET插件(03-21更新 )



 


点击查看原图

点击查看原图

点击查看原图

 点击查看原图
点击查看原图 点击查看原图 点击查看原图

标签: 验证码识别 通用验证码识别 OCR验证码识别 通用OCR

评论(8) 引用(0) 浏览(32790)

火车头网页正文提取演示程序

作者:火车头 发布于:2010-12-21 17:40 Tuesday 分类:开发计划

信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。

正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。

该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。

点击查看原图

该功能的测试请下载V8版本火车采集器,在高级菜单的“正文提取测试”中测试该功能。

标签: 正文提取 网页正文提取 text extract

评论(15) 引用(0) 浏览(11369)

新建任务在站点上不显示的问题

作者:火车头 发布于:2010-8-21 10:22 Saturday 分类:常见问题

极个别用户会遇到这种情况,在站点下新建了一个任务,提示新建成功,同时,在data目录下也可以看到有目录生成,但任务列表树中是不显示这个任务的。这时,请按以下操作进行处理。

使用access打开user/config.mdb文件,使用access中的压缩和修复数据库功能,对数据库进行修复,修复完成,再打开采集器就可以看到了。这一般是数据库受损引起的。

评论(0) 引用(0) 浏览(11738)

Powered by emlog