文章采集器采集规则和发布模块的对接

作者:dong 发布于:2016-7-6 15:21 Wednesday 分类:官方公告


对于网站维护人员来说,在配置完文章采集规则后,还需要配置发布模块,将采到的内容发布到网站中去。在线发布模块,就是文章采集器通过网站后台,发布文章,也就是将你手动在网站后台发布文章的整个过程包含登录网站后台,选择栏目,到发布文章,这些步骤都写到采集器里面就是在线发布模块,然后规则采集到的值就通过标签名传递给在线发布模块,把数据提交到网站里去。

那么在我们常用的文章采集器​即火车采集器V9中,要如何完成采集规则和发布模块的对接呢,新手朋友们请往下看。

采集规则.png

    如果要选择发布到网站中,就选择Web在线发布,然后勾选已经设置过的WEB配置就可以了。(如果大家还没有掌握发布模块的制作可以参见网页抓取工具火车采集器发布模块制作示例。)

    这里需要提醒大家注意的是:我们所设置的采集内容标签一定要和发布模块的标签个数以及名称都保持一致,否则会导致发布出错,如下图四个标签也对应四个同样的标签。

采集规则1.png

采集规则2.png

    完成以后在任务列表中勾选采集、发布,然后点击开始即可运行。在默认情况下,火车采集器会把采集的数据先保存到自己的数据库,然后根据用户设置的发布配置,再从数据库里面读出数据通过发布配置把数据发布出去。

    但我们也可以选择让采集器采集到的数据不保存到数据库,而是直接通过发布配置发布出去,也就是发布相关设置中的“边采集边发布”,发布时也可以选择正序倒序乱序等,主要看用户自己的使用需求了。


标签: 火车采集器V9 文章采集器

评论(0) 引用(0) 浏览(4466)

文章采集器抓取列表分页示例

作者:dong 发布于:2016-6-23 14:38 Thursday 分类:官方公告

在使用文章采集器采集文章的过程中,我们经常需要对分页进行抓取,比如列表分页或内容分页,这里我们就以列表分页为例,为大家讲解一下火车采集器是如何操作分页的。

对于设置列表分页,通过下图的起始网址——批量网址来设置是最常见也是最常用的。

火车采集器1.png

    现在我们用另外一种获取分页的办法,即通过列表上下页无限分页采集获取功能来自动获取分页。使用这个功能,起始页就只需要把首页地址添加进去就可以了,如下图:

火车采集器2.png

    然后进入[高级模式]——分页设置,设置区域开始字符串、区域结束字符串、地址样式、分页地址等字段。

火车采集器3.png

我们以http://news.qq.com/newsgn/zhxw/shizhengxinwen.htm 为例,先查看下第一页分页源代码的情况,如下图:

火车采集器4.png 继续查看下第二页分页源代码的情况如下:

火车采集器5.png 分析得出:当前页都是在<div>后的<strong></strong>这个代码后面紧接着一个<a href="">就是下一页地址。 也就是说我们是要通过当前页获取下一页,这样一级一级的向下获取,直至把所有分页获取到。 所以,区域开始字符串为:<div>(*)</strong> 区域结束字符串为:</a>(*)</div>

火车采集器6.png

地址样式根据截取区域的格式来写:<a href="[参数]">,效果如下:

火车采集器7.png

    另外上图 “4” 是表示获取4页的意思,默认为“0”表示不限,将采集所有分页。这样就可以用火车采集器获取到我们需要的上下页列表分页了,用火车采集器抓取内容页上下页模式也是可以参考这种操作的,更多使用教程可以访问官网进行学习。


标签: 火车采集器 文章采集器

评论(0) 引用(0) 浏览(6554)

文章采集器如何将采集数据导入数据库

作者:dong 发布于:2016-6-16 14:14 Thursday 分类:官方公告

我们在使用火车采集器采集文章时,有时会将数据在线发布到网站栏目,有时则是导入自己的数据库或是保存为本地文件,这里以火车采集器V9的数据导入为例讲解数据库发布配置如何制作。

文章采集器火车采集器V9支持MySql、SqlServer、Oracle、Access类型数据库的发布,以mysql数据库导入为例,我们打开开始菜单——数据库发布配置,如图:

①打开数据库发布配置
②对发布入库模块可进行“编辑,新建,删除,导入,导出”的操作
③入库模块
④数据库链接信息配置
⑤数据库发布配置列表

火车采集器1.png

我们先新建一个发布入库模块,选择数据库类型,写好入库语句,如图:

火车采集器2.png

1.若是单表或多表无关联,则直接写INSERT语句即可;
2.若是多表,且存在某字段相互关联,则用
[文章编号:表名XXX]来关联上一个表的自增ID;
3.自增ID字段和值需要删除,不需要写入SQL语句内。入库模块完成后,保存即可。然后在数据库发布管理界面设置好链接信息,测试链接数据库,成功后。

即可保存配置,测试发布。如下图(填写自定义值,点击测试):

火车采集器3.png

内容发布规则——导入到数据库 对应勾选就完成了导入到数据库的设置了。

火车采集器4.png

    这样文章采集器火车采集器V9的数据导入就完成了,发布到其他类型的数据库也是类似的,如果在线发布则需要编辑发布模块,具体的操作可以看官网介绍。


标签: 火车采集器 文章采集器

评论(1) 引用(0) 浏览(14747)

文章采集器——火车采集器V9数据处理功能详解

作者:dong 发布于:2016-4-6 11:51 Wednesday 分类:官方公告

用过火车采集器的朋友都知道,火车采集器是所有文章采集器里数据处理功能最为全面的,也因此被用户誉为最经典的采集软件,这里为大家详细的介绍一下文章采集器——火车采集器V9十一项强大的数据处理功能。

什么是数据处理?在火车采集器中,数据处理是对从内容页面提取到的信息数据进行进一步的加工处理,譬如替换、过滤等,火车采集器中可以同时添加多个操作,多个操作是按照从上到下的顺序来执行。也就是说,上个步骤的结果会作为下个步骤的参数。下面依次说明:

001.png

1、提取内容为空:即如果提取内容为空,则使用正则匹配内容从原始页面中再次提取。
2、内容替换/排除:顾名思义,表示对采集到的内容进行字符串替换,如需排除,则替换为空字符串即可。

002.png




3
、html标签过滤:过滤指定html标签,比如<a ,<font 
4、字符截取:通过开始和结束字符串对内容进行截取
5、纯正则替换:通过强大的正则表达式进行复杂的内容替换。
6、数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化

003.png


7
、智能提取:包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码

004.png


8
、高级功能:包括自动摘要、自动分词、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,统计标签字符串长度等一系列功能。  



9
、补全单网址:将当前内容作为一个网址进行补全。
10、文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。

005.png

11、内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。

    我们采集文章时有了这十一项强大的数据处理功能,就能应对各类网站并将数据轻松处理成自己需要的形式,省时省力。火车采集器V9作为功能最全面的文章采集器,更够为我们的工作大幅提升效率,真正智能化的服务于用户。


标签: 火车采集器V9 文章采集器

评论(0) 引用(0) 浏览(2523)

Powered by emlog