火车头通用OCR识别/验证码识别演示程序
作者:火车头 发布于:2011-3-9 15:16 Wednesday 分类:其它资源
引言:
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本,通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据;而相对于表格及票据, 通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。
OCR识别在网站上广泛用于小幅图片的文本提取和验证码识别,以前很多识别程序都是基于特定网站,特定图片进行特征码分析。合肥乐维信息技术公司根据此前的技术积累,构架通用识别方案,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到软件开发中,服务广大站长。
该演示程序需要.net framework2.0 及支持 Microsoft Visual C++ 2008 SP1 Redistributable 支持。
.net framework2.0下载地址:
32位下载地址:http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
64位下载地址:http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe
Visual C++ 2008 SP1 Redistributable:http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2
直接打开 LeWellOCR.exe 运行演示程序
1、从本地或者指定URL地址 打开需要识别的图片
2、可选是否对图片进行一些简单的处理操作,如果需要请添加滤镜对图片进行去噪
3、设置白名单和黑名单字符串,即允许和不允许在结果中出现的字符串
4、开始测试识别!
内置了几个基础的测试样式大家可以直接在项目中加载测试。
58同城验证码识别.xml,
454.cn验证码识别.xml,
ageow.com验证码识别.xml,
baike.sxlbl.com验证码识别.xml,
china.alibaba.com验证码识别.xml,
dfrxb.com验证码识别.xml,
hfzs.cn验证码识别.xml,
my.home.new.cn验证码识别.xml,
passport.cntv.cn验证码.xml,
pconline验证码.xml,
phone.10086.cn验证码识别.xml,
tongxue.com验证码识别.xml,
valve365.com验证码识别.xml,
口碑验证码识别.xml,
上海热线图片识别.xml 等。更多的大家可供试验,成功识别的网站欢迎评论留言。
2011-03-21更新:我们已将该功能做成火车采集器的插件,可成功运用到火车采集器2010版中,旗舰版企业版用户可以直接免费使用,请直接向您所属客服索要该识别插件。 详细内容见: 火车采集器通用OCR识别.NET插件(03-21更新 )
标签: 验证码识别 通用验证码识别 OCR验证码识别 通用OCR
通用自动更新程序完成
作者:小文 发布于:2011-3-7 21:54 Monday 分类:官方公告
在以前的火车采集器所有软件的更新中。每次升级都是一个比较复杂的过程。有时可能需要升级几次才能升级到最新版本,比较麻烦且不科学。针对此情况,我们开发了通用的升级程序,可以很方便的配置所有软件的升级,且可以一次升级到最新或是指定的版本,十分方便快捷。下边是一些软件的截图。
标签: 升级
火车采集器相关辅助工具的开发
作者:小文 发布于:2011-3-2 9:20 Wednesday 分类:开发计划
1.采集的数据最后导出文件时的文件命名规则可以设置。
论坛数据采集专家1.1版本发布
作者:小文 发布于:2011-1-19 14:30 Wednesday 分类:官方公告
论坛采集器在正式发布一段时间后,经过多次的修改升级,各项功能更加稳定.目前发布1.1版本.
下载地址:http://board.locoy.com/bbscopier.7z
火车头网页正文提取演示程序
作者:火车头 发布于:2010-12-21 17:40 Tuesday 分类:开发计划
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。
正文提取就是将网页中的正文部分抽取出来。合肥乐维信息技术公司根据此前的技术积累,做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见,以便我们应用到在正进行的站群软件开发中,服务广大站长。
该演示程序支持 任意网页(当然最好是内容正文页),自动识别编码,支持中英文等内容主体识别,经简单测试,正确率在90%以上,欢迎大家试用。
该功能的测试请下载V8版本火车采集器,在高级菜单的“正文提取测试”中测试该功能。
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。