E商统计手动更新包(2013.12.19),V8,V8.1版采集器适用

作者:乐文 发布于:2012-9-15 9:31 Saturday 分类:官方公告

注:建议使用采集器内置的扩展升级。

注意,使用E商统计手动更新包的朋友,请先更新采集器手动版到最新 http://board.locoy.com/?post=95 。更新完成后,下载些手动更新包覆盖原文件即可。


2013/12/23
修正淘宝,一号店抓取规则
2013/12/19
修正当当网抓取规则
2013/12/17
修正京东价格抓取
2013/12/12
修正新蛋抓取规则(更换域名),新七天(网站改版)抓取规则,一号店(更换域名)抓取规则
2013/11/25
天猫,淘宝 增加延迟时间防屏蔽
2013/11/22
修正天猫抓取规则
2013/11/20
修正易迅,一号店 抓取规则
2013/11/13
修正苏宁,当当,一号店 抓取规则, 删除 当当评论 '评论标题' 字段 
2013/10/30
修正天猫,淘宝,壹号店,新蛋 抓取规则
2013/09/22
修正1号商城 抓取规则
2013/09/18
修正当当,易迅,国美抓取规则
2013/09/17
淘宝抓取增加两个字段
2013/09/16
修正 国美 抓取规则
2013/09/13
修正 苏宁 抓取规则
2013/09/11
修正 易迅 抓取规则
2013/09/03
修正苏宁易购 商品信息抓取规则
2013/09/02
修正天猫 列表 以及 交易评论抓取规则, 当当网列表抓取规则
2013/08/27
修正 淘宝,易迅,壹号店 抓取规则


评论(0) 引用(0) 浏览(12542)

火车头数据采集平台1.6增加的Http正文提取,Ocr识别和中文分词功能

作者:小文 发布于:2012-9-14 17:31 Friday 分类:开发计划

9.12号发布的新版采集器平台增加了Http正文提取和Ocr识别功能,使用企业版本的用户都可以使用。用户可以通过调用http,完成正文识别或是ocr等功能,使用户的平台和采集器整合更加方便。以下是具体的使用方法,注意,请先启动http服务器。

1、正文提取功能

a.用户需要输入要提取的网址或是内容。如果是单纯的网址识别,注意要访问的网页不需要登录。

示例网址:http://127.0.0.1:800/api?model=text&pageurl=http://news.qq.com/a/20120914/001770.htm

b.如果是要提取某个网页的内容。请填写完整的html源码和pageurl.注意请求时对发送的内容进行utf8格式的urlencode.如果只填写了pageurl而没有html,则服务器会去访问pageurl请求html代码。

示例: http://127.0.0.1:800/api?model=text&html=编码后的完整的html代码&pageurl=http://news.qq.com/a/20120914/001770.htm

c.提取方式分为标准模式,完全模式,纯净模式,需要加一个returntype参数,其值为raw(标准模式),pure(纯净模式).默认为标准模式。

d.结构形式默认为普通文章,如果需要多层评论形式,请添加pagetype=bbs

最后返回的结果是xml格式的,如下

点击查看原图

2.ocr识别

ocr识别支持直接传入图片地址和base64编码的图片。用户需要指定一个ocr配置文件名。ocr配置文件要保存在Configuration/ocr/目录下。请求的格式如下

a.直接的图片地址

http://127.0.0.1:888/api?model=ocr&ocrfile=baixing&imgurl=http%3A%2F%2Fstatic.baixing.net%2Fpages%2Fmobile%2FXTJ7aQPIUYmLpzNNsitnwA%253D%253D%2F2.jpg

 

返回的结果如下:

点击查看原图

 

3.中文分词

中文分词支持一个或多个正文文本的识别,默认的是分词5个,分隔符,号。如果要修改,请传入参数splitnum和splitsep。识别文本的字段名要以wordsegtxt开头,整个字段名只能包含数字或字母。程序处理完后,会返回xml格式数据,以原字段名命令标签名。

 

http://127.0.0.1:888/api?model=wordseg&wordsegtxt1=%E7%81%AB%E8%BD%A6%E9%87%87%E9%9B%86%E5%99%A8(%E8%BD%AF%E8%91%97%E7%99%BB%E5%AD%970144474%E5%8F%B7%EF%BC%8C2009SR017475)%E6%98%AF%E4%B8%80%E6%AC%BE%E4%B8%93%E4%B8%9A%E7%9A%84%E7%BD%91%E7%BB%9C%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86%2F%E4%BF%A1%E6%81%AF%E6%8C%96%E6%8E%98%E5%A4%84%E7%90%86%E8%BD%AF%E4%BB%B6%EF%BC%8C%E9%80%9A%E8%BF%87%E7%81%B5%E6%B4%BB%E7%9A%84%E9%85%8D%E7%BD%AE%EF%BC%8C%E5%8F%AF%E4%BB%A5%E5%BE%88%E8%BD%BB%E6%9D%BE%E8%BF%85%E9%80%9F%E5%9C%B0%E4%BB%8E%E7%BD%91%E9%A1%B5%E4%B8%8A%E6%8A%93%E5%8F%96%E7%BB%93%E6%9E%84%E5%8C%96%E7%9A%84%E6%96%87%E6%9C%AC%E3%80%81%E5%9B%BE%E7%89%87%E3%80%81%E6%96%87%E4%BB%B6%E7%AD%89%E8%B5%84%E6%BA%90%E4%BF%A1%E6%81%AF%EF%BC%8C%E5%8F%AF%E7%BC%96%E8%BE%91%E7%AD%9B%E9%80%89%E5%A4%84%E7%90%86%E5%90%8E%E9%80%89%E6%8B%A9%E5%8F%91%E5%B8%83%E5%88%B0%E7%BD%91%E7%AB%99%E5%90%8E%E5%8F%B0%EF%BC%8C%E5%90%84%E7%B1%BB%E6%96%87%E4%BB%B6%E6%88%96%E5%85%B6%E4%BB%96%E6%95%B0%E6%8D%AE%E5%BA%93%E7%B3%BB%E7%BB%9F%E4%B8%AD%E3%80%82%E8%A2%AB%E5%B9%BF%E6%B3%9B%E5%BA%94%E7%94%A8%E4%BA%8E%E6%95%B0%E6%8D%AE%E9%87%87%E9%9B%86%E6%8C%96%E6%8E%98%E3%80%81%E5%9E%82%E7%9B%B4%E6%90%9C%E7%B4%A2%E3%80%81%E4%BF%A1%E6%81%AF%E6%B1%87%E8%81%9A%E5%92%8C%E9%97%A8%E6%88%B7%E3%80%81%E4%BC%81%E4%B8%9A%E7%BD%91%E4%BF%A1%E6%81%AF%E6%B1%87%E8%81%9A%E3%80%81%E5%95%86%E4%B8%9A%E6%83%85%E6%8A%A5%E3%80%81%E8%AE%BA%E5%9D%9B%E6%88%96%E5%8D%9A%E5%AE%A2%E8%BF%81%E7%A7%BB%E3%80%81%E6%99%BA%E8%83%BD%E4%BF%A1%E6%81%AF%E4%BB%A3%E7%90%86%E3%80%81%E4%B8%AA%E4%BA%BA%E4%BF%A1%E6%81%AF%E6%A3%80%E7%B4%A2%E7%AD%89%E9%A2%86%E5%9F%9F%EF%BC%8C%E9%80%82%E7%94%A8%E4%BA%8E%E5%90%84%E7%B1%BB%E5%AF%B9%E6%95%B0%E6%8D%AE%E6%9C%89%E9%87%87%E9%9B%86%E6%8C%96%E6%8E%98%E9%9C%80%E6%B1%82%E7%9A%84%E7%BE%A4%E4%BD%93&wordsegtxt2=%E9%92%93%E9%B1%BC%E5%B2%9B%E6%98%AF%E5%8F%B0%E6%B9%BE%E7%9C%81%E4%B8%8D%E5%8F%AF%E5%88%86%E5%89%B2%E7%9A%84%E4%B8%80%E9%83%A8%E5%88%86

 点击查看原图

标签: ocr

评论(0) 引用(0) 浏览(34714)

A debugger has been found running in your system.Please,unload it from memory and restart 。。。

作者:小文 发布于:2012-9-14 15:31 Friday 分类:常见问题

当火车采集器升级至v7.6版本后个别电脑会出现这个问题。这个问题一般是云端软件和采集器冲突。处理办法是使用云端1.0稳定版或是卸载掉云端软件然后再重启电脑。

参考资料:http://zhidao.baidu.com/question/407369453.html

标签: 云端

评论(0) 引用(0) 浏览(15743)

接口或模块上传文件时无返回值需修改php.ini的问题

作者:小文 发布于:2012-8-28 15:01 Tuesday 分类:常见问题

在php.ini的默认设置中,上传文件的个数是20个,上传最大是2m.如果我们在使用接口上传大量的头像或是上传大文件时,则有可以是返回200标识,返回的值为空。如果调试也是无结果的。这时,我们应修改php.ini。以下是某个用户的配置。

点击查看原图

修改后

点击查看原图

标签: discuz

评论(1) 引用(0) 浏览(5328)

一团网火车采集器团购培训相关事项

作者:火车头 发布于:2012-8-10 16:52 Friday 分类:软件培训

1、  本次在线培训主要针对近期一团网组织的团购用户开设,共计六次,安排在813(周一)815(周三)817(周五)、820(周一)各一次,818日(周六)两次。普通用户也可以积极参加。

2、  具体时间点是:周一、周三 、周五的晚19:30开始,周六上午10点开始 下午15:00开始

3、  培训的时间长度根据培训人员授课的内容来决定

4、  本次培训以远程桌面,在线语音及及时的文字沟通方式在线展示给用户,用户需在培训开始前从本页面下载客户端软件(附件将在8月13日中午前后放出,请大家注意下载),下载解压后,运行"培训客户端.exe",登陆软件 按照软件的提示来操作。

5、  培训人员在培训时,注意观看远程桌面,先不要用语音工具提问,有问题可以用文字聊天工具提问,在培训人员结束培训后,客户有什么问题可以积极的提出。

培训内容请查看全文。。。

阅读全文>>

评论(5) 引用(0) 浏览(16271)

Powered by emlog