Url参数格式列表如下:

注意:以下示例中省略type,user,pwd这三个参数。
a、所有的请求返回结果格式都可以是Xml或Json的,默认的类型在服务器启动参数里设置,也可以通过type=xml或type=json参数强制指定。
b、在服务器不允许匿名访问的情况下,所有请求Url中必须包含user和pwd这2个参数!

1 操作任务

操作 mothed 备注 样例
查看所有任务 get http://127.0.0.1:888/api?model=job&action=list
启动任务 get http://127.0.0.1:888/api?model=job&action=start&jobid=1
暂停任务 get http://127.0.0.1:888/api?model=job&action=pause&jobid=1
停止任务 get http://127.0.0.1:888/api?model=job&action=stop&jobid=1
下载任务 get http://127.0.0.1:888/api?model=job&action=get&jobid=1
永久更新任务 post 上传ljobx格式文件,表单名rulefile http://127.0.0.1:888/api?model=job&action=update&jobid=1
临时更新任务 post 上传规则xml文件,表单名jobxmlfile http://127.0.0.1:888/api?model=job&action=tempupdate&jobid=1
重新加载任务 get 从数据库中重新加载任务 http://127.0.0.1:888/api?model=job&action=refresh&jobid=1
删除任务 get http://127.0.0.1:888/api?model=job&action=delete&jobid=1
创建任务 post 上传ljobx格式文件,表单名rulefile,站点id为siteid http://127.0.0.1:888/api?model=job&action=create
更新任务运行状态 get 必须包含采网址spiderurl、采内容spidercontent、发内容outcontent三个选项中一个,其中1为选中,其它为不选中 http://127.0.0.1:888/api?model=job&jobid=304&action=changestatus&spiderurl=1&spidercontent=1&outcontent=1

2 计划任务

操作 mothed 备注 样例
查看所有计划任务 get http://127.0.0.1:888/api?model=scheduler&action=list
查看计划任务 get http://127.0.0.1:888/api?model=scheduler&action=view&jobid=1
创建计划任务 post http://127.0.0.1:888/api?model=scheduler&action=create&jobid=1
更新计划任务 post 计划任务表单名为cron http://127.0.0.1:888/api?model=scheduler&action=update&jobid=1
删除计划任务 get http://127.0.0.1:888/api?model=scheduler&action=delete&jobid=1

3 查看采集数据

操作 mothed 备注 样例
查看采集数据 get http://127.0.0.1:888/api?model=data&action=view&pn=1&rn=20&jobid=1
统计采集数据量 get opreator参数:0为全部数量,1为已采数量,2为未采数量,3为已发数量,4为未发数量 http://127.0.0.1:888/api?model=data&action=count&opreator=1&jobid=1

4 分组操作

操作 mothed 备注 样例
查看所有分组 get http://127.0.0.1:888/api?model=site&action=list
新建分组 get sitename为分组名,parentid为上级分类,根级为0 http://127.0.0.1:888/api?model=site&action=create&sitename=testname

5 正文提取

操作 mothed 备注 样例
对链接内容进行正文提取 get pageurl参数,程序自动获取pageurl链接对应html源码,此参数不可缺少。returntype指定采集模式,pure纯 净,raw完全。pagetype指定正文提取模式,bbs论坛问答模式。returntype和pagetype两个参数可缺少,returntype 的默认值为标准模式,pagetype默认值为新闻模式。 http://127.0.0.1:888/api?model=text&pageurl=http://news.qq.com/a/20121212/123456.htm&returntype=pure&pagetype=bbs
对源码内容进行正文提取 get html参数提交html源码,此参数不可缺少。returntype指定采集模式,pure纯净,raw完全。pagetype指定正文提取模 式,bbs论坛问答模式。returntype和pagetype两个参数可缺少,returntype的默认值为标准模式,pagetype默认值为新 闻模式。 http://127.0.0.1:888/api?model=text&html=testhtml&returntype=raw&pagetype=bbs

6 分词

操作 mothed 备注 样例
对指定内容分词 get 指定内容用以wordsegtxt开头的参数提交,可提交多个分词内容。splitnum最高频词个数,提取前splitnum个最高频词,此参数可缺少,默认值为5。splitsep分隔符,对前splitnum个最高频词用分隔符splitsep连接。 http://127.0.0.1:888/api?model=wordseg&wordsegtxt1=testtxt1&wordsegtxt2=testtxt2&splitnum=6&splitsep=|

7 图片识别

操作 mothed 备注 样例
对图片内容进行识别 get ocrfile为指定一个ocr的配置文件,该文件要放在采集器根目录Configuration/ocr目录下,文件名不带后缀的。 imgurl图片链接地址,此参数若有来源页可用参数refer指定。对于base64编码的图片用参数base64提交图片base64编码即可,用 base64参数时不能使用参数imgurl。 http://127.0.0.1:888/api?model=ocr&ocrfile=test&imgurl=http://www.qincai.net/png/tele_1642174.png

8 操作扩展任务

操作 mothed 备注 样例
更新单条记录的单个值 get appname和jobid两个参数不可缺少,appname为扩展英文名,jobid为任务id。更新单条记录的单个值,参数action=updatedata,content为更新内容,labelname为更新字段(任务标签名),dataid为更新记录id。 http://127.0.0.1:888 /api?model=app&appname=locoyspider&jobid=292& action=updatedata&content=test&labelname=内容&dataid=1
获取单条链接数据 get appname和jobid两个参数不可缺少,appname为扩展英文名,jobid为任务id。采集指定链接内容,pageurl为指定链接。 http://127.0.0.1:888/api?model=app&appname=locoyspider&jobid=292&pageurl=http://news.qq.com/a/20121022/000983.htm

9 关于

操作 mothed 备注 样例
获取平台信息 get http://127.0.0.1:888/api?model=about