火车采集器V9.2起将支持Python插件
作者:小文 发布于:2016-5-26 9:25 Thursday 分类:官方公告
除了支持PHP,C#插件,最近火车采集器终于又迎来了一个新的插件,Python插件。用户可以在自己的Python插件中,修改html代码,修改最终采集结果,可以实现更多自己的想法。python插件支持2.7和3.x版本,采集器默认自带2.7和3.4的示例代码,用户只需要稍微修改即可以完成自己的功能。Python插件功能将在V9.2版本中集成,马上就能和大家见面了。更多插件及开发,请加QQ群 火车头开放平台 149855485
以下是3.4的python插件示例代码
import sys,importlib
from urllib import parse
import json
if len(sys.argv)!= 5:
print(len(sys.argv))
print("命令行参数长度不为5")
sys.exit()
else:
LabelCookie = parse.unquote(sys.argv[1])
LabelUrl = parse.unquote(sys.argv[2])
#PageType为List,Content,Pages分别代表列表页,内容页,多页http请求处理,Save代表内容处理
PageType=sys.argv[3]
SerializerStr = parse.unquote(sys.argv[4])
if (SerializerStr[0:2] != '''{"'''):
file_object = open(SerializerStr)
try:
SerializerStr = file_object.read()
finally:
file_object.close()
LabelArray = json.loads(SerializerStr)
#以下是用户编写代码区域
if(PageType=="Save"):
if(LabelArray['标题']):
LabelArray['标题']='这是Python插件处理的标题'
else:
LabelArray['Html']='当前页面的网址为:'+ LabelUrl +"\r\n页面类型为:" + PageType + "\r\nCookies数据为:"+LabelCookie+"\r\n接收到的数据是:" + LabelArray['Html']
#以上是用户编写代码区域
LabelArray = json.dumps(LabelArray)
print(LabelArray)
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。