Python - 火车采集器官方博客

火车采集器V9.2起将支持Python插件

作者：小文发布于：2016-5-26 9:25 Thursday 分类：官方公告

除了支持PHP，C#插件，最近火车采集器终于又迎来了一个新的插件，Python插件。用户可以在自己的Python插件中，修改html代码，修改最终采集结果，可以实现更多自己的想法。python插件支持2.7和3.x版本，采集器默认自带2.7和3.4的示例代码，用户只需要稍微修改即可以完成自己的功能。Python插件功能将在V9.2版本中集成，马上就能和大家见面了。

更多插件及开发，请加QQ群火车头开放平台 149855485

以下是3.4的python插件示例代码

import sys,importlib
from urllib import parse
import json

if len(sys.argv)!= 5:
    print(len(sys.argv))
    print("命令行参数长度不为5")
    sys.exit()
else:
    LabelCookie = parse.unquote(sys.argv[1])
    LabelUrl = parse.unquote(sys.argv[2])
    #PageType为List,Content,Pages分别代表列表页，内容页，多页http请求处理，Save代表内容处理
    PageType=sys.argv[3]
    SerializerStr = parse.unquote(sys.argv[4])
    if (SerializerStr[0:2] != '''{"'''):
        file_object = open(SerializerStr)
        try:
            SerializerStr = file_object.read()
        finally:
            file_object.close()
    LabelArray = json.loads(SerializerStr)

#以下是用户编写代码区域
    if(PageType=="Save"):
        if(LabelArray['标题']):
            LabelArray['标题']='这是Python插件处理的标题'
    else:
        LabelArray['Html']='当前页面的网址为:'+ LabelUrl +"\r\n页面类型为:" + PageType + "\r\nCookies数据为:"+LabelCookie+"\r\n接收到的数据是:" + LabelArray['Html']


#以上是用户编写代码区域
    LabelArray = json.dumps(LabelArray)
    print(LabelArray)

标签: 插件 Python 采集器

评论(0) 引用(0) 浏览(7937)

火车采集器官方博客

发布关于火车采集器的最新消息,最新资源,最新活动

火车采集器V9.2起将支持Python插件

搜索

联系我们

联系电话

QQ邮件订阅

最新评论