文章采集器——火车采集器V9数据处理功能详解
作者:dong 发布于:2016-4-6 11:51 Wednesday 分类:官方公告
用过火车采集器的朋友都知道,火车采集器是所有文章采集器里数据处理功能最为全面的,也因此被用户誉为最经典的采集软件,这里为大家详细的介绍一下文章采集器——火车采集器V9十一项强大的数据处理功能。
什么是数据处理?在火车采集器中,数据处理是对从内容页面提取到的信息数据进行进一步的加工处理,譬如替换、过滤等,火车采集器中可以同时添加多个操作,多个操作是按照从上到下的顺序来执行。也就是说,上个步骤的结果会作为下个步骤的参数。下面依次说明:
1、提取内容为空:即如果提取内容为空,则使用正则匹配内容从原始页面中再次提取。
2、内容替换/排除:顾名思义,表示对采集到的内容进行字符串替换,如需排除,则替换为空字符串即可。
3、html标签过滤:过滤指定html标签,比如<a ,<font
4、字符截取:通过开始和结束字符串对内容进行截取
5、纯正则替换:通过强大的正则表达式进行复杂的内容替换。
6、数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化
7、智能提取:包括提取第一张图片、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码
8、高级功能:包括自动摘要、自动分词、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,统计标签字符串长度等一系列功能。
9、补全单网址:将当前内容作为一个网址进行补全。
10、文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。
11、内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。
我们采集文章时有了这十一项强大的数据处理功能,就能应对各类网站并将数据轻松处理成自己需要的形式,省时省力。火车采集器V9作为功能最全面的文章采集器,更够为我们的工作大幅提升效率,真正智能化的服务于用户。
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。
发表评论: