其它资源 - 火车采集器官方博客

齐博cmsv7.0文章发布模块发布

作者：小文发布于：2011-4-16 14:18 Saturday 分类：其它资源

齐博CMS v7 文章发布模块使用说明

一、使用教程
1.文字教程
    1.1、导入发布模块齐博CMS v7 文章发布模块.cwr 到采集器或是直接复制该模块到采集器的Module目录.
    1.2、如您需要设置一些特定参数,请参照参数说明修改模块.
    1.3、设置发布配置,如测试成功,保存发布配置.
    1.4、在任务发布中选中web布配置,然后采集并开始发布.
2.参考教程
    下载地址:http://video.locoy.com/module/dede/dede56_article.7z

二、注意事项
1、该模块仅适用于发布文章到齐博CMS频道内容模型为普通文章的栏目；
2、分页代码 [-page-]
3、网站根地址为后台管理目录，默认的为admin.发布配置根地址设置示例: http://qibov7.cn/admin

三.参数说明
1、必选参数
    fid=              分类ID
    postdb[title]     标题
    postdb[content]   内容
    postdb[yz]=1      审核


2、可选参数:

    postdb[smalltitle]        简短标题
    postdb[titlecolor]       标题样式颜色
    postdb[author]       作者
    postdb[copyfrom]       出处
    postdb[copyfromurl]       出处网址
    postdb[picurl]       缩略图
    postdb[automakesmall]          1为系统自动截图
    picWidth         手工截图宽，默认200
    picHeight         手工截图高,默认150
    postdb[keywords]       关键字
    postdb[posttime]        日　期
    postdb[begintime]       开始浏览日期
    postdb[endtime]       结束浏览日期
    postdb[hits]       点　击
    postdb[passwd]       密码
    postdb[money]       收费(整站积分)
    postdb[description]       文章简介　
    postdb[subhead]       　副标题
    ExplodePage       0　　分页1自动,-1手动,0不分,手工分页符[-page-]
    PageNum       3000 自动分页字数
    GetOutPic　　1为将文章中的外部图片采集回来
    postdb[levels] 推荐
    postdb[target] 新窗口打开

合肥乐维信息技术有限公司
小文
2011.4.16

标签: 齐博cms

评论(1) 引用(0) 浏览(10768)

火车头通用OCR识别/验证码识别演示程序

作者：火车头发布于：2011-3-9 15:16 Wednesday 分类：其它资源

引言： OCR技术是光学字符识别的缩写(Optical Character Recognition)，是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。可应用于银行票据、大量文字资料、档案卷宗、文案的录入和处理领域。适合于银行、税务等行业大量票据表格的自动扫描识别及长期存储。相对一般文本，通常以最终识别率、识别速度、版面理解正确率及版面还原满意度4个方面作为OCR技术的评测依据；而相对于表格及票据，通常以识别率或整张通过率及识别速度为测定OCR技术的实用标准。

OCR识别在网站上广泛用于小幅图片的文本提取和验证码识别，以前很多识别程序都是基于特定网站，特定图片进行特征码分析。合肥乐维信息技术公司根据此前的技术积累，构架通用识别方案，做成此演示程序供大家测试。希望大家积极提供宝贵的测试意见，以便我们应用到软件开发中，服务广大站长。

该演示程序需要.net framework2.0 及支持 Microsoft Visual C++ 2008 SP1 Redistributable 支持。

.net framework2.0下载地址：
32位下载地址：http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe
64位下载地址：http://download.microsoft.com/download/a/3/f/a3f1bf98-18f3-4036-9b68-8e6de530ce0a/NetFx64.exe

Visual C++ 2008 SP1 Redistributable：http://www.microsoft.com/downloads/zh-cn/details.aspx?FamilyID=a5c84275-3b97-4ab7-a40d-3802b2af5fc2

直接打开 LeWellOCR.exe 运行演示程序

1、从本地或者指定URL地址打开需要识别的图片
2、可选是否对图片进行一些简单的处理操作，如果需要请添加滤镜对图片进行去噪
3、设置白名单和黑名单字符串，即允许和不允许在结果中出现的字符串
4、开始测试识别！

内置了几个基础的测试样式大家可以直接在项目中加载测试。

58同城验证码识别.xml，
454.cn验证码识别.xml，
ageow.com验证码识别.xml，
baike.sxlbl.com验证码识别.xml，
china.alibaba.com验证码识别.xml，
dfrxb.com验证码识别.xml，
hfzs.cn验证码识别.xml，
my.home.new.cn验证码识别.xml，
passport.cntv.cn验证码.xml,
pconline验证码.xml,
phone.10086.cn验证码识别.xml,
tongxue.com验证码识别.xml,
valve365.com验证码识别.xml,
口碑验证码识别.xml,
上海热线图片识别.xml 等。更多的大家可供试验，成功识别的网站欢迎评论留言。

2011-03-21更新：我们已将该功能做成火车采集器的插件，可成功运用到火车采集器2010版中，旗舰版企业版用户可以直接免费使用，请直接向您所属客服索要该识别插件。 详细内容见：火车采集器通用OCR识别.NET插件(03-21更新 )

标签: 验证码识别通用验证码识别 OCR验证码识别通用OCR

评论(8) 引用(0) 浏览(35033)

火车采集器图片识别程序

作者：小文发布于：2010-10-13 13:26 Wednesday 分类：其它资源

该工具可以配合火车采集器图片识别插件工具.该插件下载地址: http://board.locoy.com/?post=24

使用方法如下:

将该工具放在和火车采集器同目录下.否则不能运行.

请先输入图片地址,然后点击下载,则可以看到如图中的远程图片.然后,点击识别,程序会自动将数字分割.每个数字下边对应的是相应的识别值.如果图片中的数字和实际的不符,请在对应的文本框内写上正确的数字,然后点击ok按钮,程序会将该特征码保存,然后请再次点击识别.如果正确,则可以进行其它操作了.如果您一不小心添加了错误的标识码,没关系,请在对应的号码上双击,就可以将其删除掉.

当所有的数字识别均正确后,可以点击保存特征码,将已识别的保存在文件中.如果需要在火车采集器中使用,则需要将上边我们提到的插件启用,同时,将导出的特征码的文件命名为 image.txt,放在火车采集器程序的同目录下即可.导出的特征码,如果下次使用,可以使用加载特征码的功能加载.

标签: 识别图片

评论(11) 引用(0) 浏览(16282)

PHP对escape的字符串进行解密

作者：小文发布于：2010-8-28 12:53 Saturday 分类：其它资源

Escape是js 脚本的一种加密字符串的方式.具体详情可以参见http://www.w3school.com.cn/js/jsref_unescape.asp

有的网站会将中文字进行Escape编码,然后在显示时用unescape再进行转换.比如有这么一段代码

<title>广州公交查询-由%u91D1%u6CFD%u5927%u53A6到%u767E%u5F81%u79D1%u6280%u5927%u53A6的乘车路线</title>

这个是经过Escape编码的.我们需要在PHP中将其解密.在网上搜索后,得到加密和解密代码.

<?php

我们测试一下

echo unescape("由%u91D1%u6CFD%u5927%u53A6到%u767E%u5F81%u79D1%u6280%u5927%u53A6的乘车路线");

可以得到由金泽大厦到百征科技大厦的乘车路线

标签: escape unescape php

评论(4) 引用(0) 浏览(8793)

Html实体字符转换

作者：小文发布于：2010-8-28 12:45 Saturday 分类：其它资源

有时,我们采集的数据类似 "你好", 这些字符在源代码中是这个样子,但在网页中确是正常显示为中文.这类代码叫做html实体 ,我们可以通过PHP的内置函数,对其进行转换,以方便查阅.

php代码如下:

echo mb_convert_encoding("你好", "gb2312", "HTML-ENTITIES"); //输出：你好

mb_convert_encoding 用法可以参考http://cn.php.net/manual/zh/function.mb-convert-encoding.php

如果您使用php插件,可能需要添加 php_mbstring.dll 扩展.火车采集器中PHP插件的扩展添加方法请查看文章 http://board.locoy.com/?post=34

标签: php插件 html实体字符

评论(2) 引用(0) 浏览(9065)

1 2 3 4 5 6 7 8

火车采集器官方博客

发布关于火车采集器的最新消息,最新资源,最新活动

齐博cmsv7.0文章发布模块发布

火车头通用OCR识别/验证码识别演示程序

火车采集器图片识别程序

PHP对escape的字符串进行解密

Html实体字符转换

搜索

联系我们

联系电话

QQ邮件订阅

最新评论