分类信息的规则更新(8.6)

作者:小文 发布于:2012-8-6 11:25 Monday 分类:其它资源

该分组包含58,赶集,口碑,百姓网的电话号码识别。

使用方法

1.关闭采集器,将Plugins\LocoySpider\58验证码.dll,删除

2.打开采集器,导入分组规则即可。

标签: 识别 分类

评论(5) 引用(0) 浏览(11578)

关于自增Id的问题

作者:小文 发布于:2012-7-27 15:36 Friday 分类:常见问题

在v7版本以前,程序有一个功能是提供自增id.每当程序启动时,就会初使化一个全局的自增id,每个任务都可以使用。这方便了一些用户的需求,但另一些用户则不赞成使用,因为多任务运行时,这样的自增id就不会是连续的,并且每次重启软件后会重置,会产生重复的id.考虑再三后,我们决定去掉原程序中的自增id功能,给用户提供另一种更方便的自增id获取方式。

这个方法就是利用采集器中默认的Id标签,采集器中的Id值本身就是自增的,从1开始,程序自动生成的。用户在发布模块或是文件模板板中使用[标签:Id]即可以调用这个值。这个自增id不会重复,每个任务都是单独的。所以我们建议用户使用该方法来完成自增id功能。

评论(7) 引用(0) 浏览(16121)

v7版本中PHP环境的修改

作者:小文 发布于:2012-7-26 17:33 Thursday 分类:常见问题

火车采集器支持php插件对数据进行处理。php插件的原理简单,是通过调用命令行的php.exe,对数据进行处理。v7版本的php目录为 System\PHP 。

采集器默认的php环境可能会无法满足用户的需要。这时,您可以更换您自己的php环境。需要注意的是php的工作目录是 System\PHP ,您可以直接将自己的php环境复制过来。注意的是该目录下的interface.php文件必须要保留。在更换完成后,请检查一下php.ini,看配置中的各种相对目录是否正确。测试无误后就可以使用了。

标签: php

评论(5) 引用(0) 浏览(9924)

v7版计划任务增加cron表达式测试工具

作者:小文 发布于:2012-7-20 10:34 Friday 分类:功能介绍

v7版本的计划任务基于cron表达式。因此,某些设置可能会无法直接达到,如每间隔120分钟无法在分钟里设置,可以设置成每间隔两小时。不能设置每间隔25个小时,可以设置每间隔一天。等等。下次更新中,计划任务将增加最近的几次运行时间,方便用户查看。以下附件就是基于此的小工具。

点击查看原图

标签: cron

评论(1) 引用(0) 浏览(8513)

关于标签组合功能的使用说明

作者:小文 发布于:2012-7-18 9:41 Wednesday 分类:功能介绍

v7版本增加了一个标签组合的功能,许多朋友在使用中发现组合的结果和自己想要的结果不一致,下面我来说明一下该功能的使用。

1.标签组合组合的是文件下载前的内容

有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。

2.内容页标签循环采集并添加为新记录

如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。假设a的值是11,22,33,44,55,b的值为aa,bb,cc.c是由[标签:a][标签:b]组合, 则产生的c的值为11aa,22bb,33cc,44,55.

3.列表页标签和内容页标签组合

如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11,22,22,b的值为bb,那么,c第一次组合结果是 11[标签:b],22[标签:b],33[标签:b],然后进行数据处理。如果b的值是bb,那么最后的结果就可能是11bb,22bb,33bb.

 

有的朋友可能会说,干嘛将这个功能搞这么复杂的。其实,这个功能主要是为第一条的功能使用的,其它的组合方式可能会产生和原想法不一样的结果。建议大家不要滥用这个功能,不要将它想像成万能的。

评论(1) 引用(0) 浏览(12262)

Powered by emlog