抓取网页数据工具标签组合的使用方法

作者:dong 发布于:2016-7-22 13:59 Friday 分类:官方公告

   抓取网页数据工具火车采集器V9将标签组合功能放在了数据获取方式选项中,即可以通过标签组合来获取标签数据,下面讲解一下该功能如何使用。学习之前需要注意以下几种情况:

1.标签组合是组合文件下载前的内容

    有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。

2.内容页标签循环采集并添加为新记录

    如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。比如我们假设a的值是11、22、33、44、55,而b的值为aa、bb、cc,那么c是由[标签:a][标签:b]组合的,则产生的c的值为11aa、22bb、33cc、44、55,后面两个b值为空。

3.列表页标签和内容页标签组合

如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页先当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11、22、33,b的值为bb,那么,c第一次组合结果是11[标签:b]、22[标签:b]、33[标签:b],然后进行数据处理:如果b的值是bb,那么最后的结果就是11bb、22bb、33bb。
下面来实际操作下,已有标签的组合操作示例如下:

  我们把“标题”和“来源”标签组合成一个新标签“标题+来源”,之间用“___”隔开,我们测试下结果如下图,查看该标签内容可以看到测试结果和预期效果是一样的。

那么生成固定格式数据的组合方式怎么操作呢?看下图:

再测试一下,可以看到测试结果和已有标签组合的结果是一致的。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(6878)

听说你的老板让你学会抓数据?

作者:dong 发布于:2016-7-13 14:14 Wednesday 分类:官方公告

看到有朋友给我们留言说,老板看我电脑玩的溜,就要求我半天学会火车采集器,不懂技术怎么入手?先别懵圈,毕竟叫你学采集器可比看你电脑玩的溜就让你负责维修电脑强多啦。

先说说你的老板为啥叫你学抓数据。大致就是以下三种可能:第一、对工作效率的提升需求促使人工操作转向工具智能,你的老板开始尝试更高效的渠道了。第二、没有数据支撑的业务似乎很难有新的突破,因此要全面收集数据谋发展。第三、各家公司都在整合大数据,再不试试就显的落伍了。

好吧,那接下来咱们就探索下,如何在半天时间内,完成老板的交代,把火车采集器也玩儿溜(带数字标注的蓝字,需要点进去学习哦~)。

火车采集器是一款网页抓取工具,即抓取网页中的网址、文字、图片等数据。那既然是工具就一定有它的工作原理,也有其专业术语,所以了解原理和术语是基础,否则直接拿出来用肯定是觉得繁乱难。

原理:火车采集器的运行依赖源代码,就像音乐家需要五线谱,工程师需要图纸一样。它并不能一眼识别哪里是标题、哪里是正文,只能通过代码语言来识别和提取数据。比如<h1> 与 </h1> 之间的文本被显示为标题,<p> 与 </p> 之间的文本被显示为段落。(所以需要多学习源码知识,了解所需数据的源码结构。)

了解原理和术语之后,我们不妨通过一个简单的例子来完整的学习采集器的操作步骤。有了基本的操作了解,就可以下载采集器免费版参照着示例来练习几次,可以从最简单的文章采集着手,当我们已经掌握基础的抓取数据后,我们应该把数据如何保存呢?火车采集器可以将数据在线发布到你的网站里,也可以保存发布在数据库本地文件

到这里,你已经掌握了采集简单网页的基本操作,而复杂网页则需要更多处理,比如登录、封IP、Ajax页面等,都可以通过帮助手册来逐步规划学习,原理懂了,复杂的采集也能逐一攻克。在采集器官网中还有丰富的文字和视频教程,一定能帮你快速上手。如果需要商业版本的功能,则可以选择一个适合的版本,如何选择请看版本攻略或咨询官方客服。

呐,即使是技术小白,半天学会采集器的基本操作也是足够了的,有计算机基础的就更快啦,学会用火车采集器抓数据,你可就是公司的技术型人才,离升职加薪就不远咯~~


标签: 火车采集器

评论(0) 引用(0) 浏览(6932)

文章采集器采集规则和发布模块的对接

作者:dong 发布于:2016-7-6 15:21 Wednesday 分类:官方公告


对于网站维护人员来说,在配置完文章采集规则后,还需要配置发布模块,将采到的内容发布到网站中去。在线发布模块,就是文章采集器通过网站后台,发布文章,也就是将你手动在网站后台发布文章的整个过程包含登录网站后台,选择栏目,到发布文章,这些步骤都写到采集器里面就是在线发布模块,然后规则采集到的值就通过标签名传递给在线发布模块,把数据提交到网站里去。

那么在我们常用的文章采集器​即火车采集器V9中,要如何完成采集规则和发布模块的对接呢,新手朋友们请往下看。

采集规则.png

    如果要选择发布到网站中,就选择Web在线发布,然后勾选已经设置过的WEB配置就可以了。(如果大家还没有掌握发布模块的制作可以参见网页抓取工具火车采集器发布模块制作示例。)

    这里需要提醒大家注意的是:我们所设置的采集内容标签一定要和发布模块的标签个数以及名称都保持一致,否则会导致发布出错,如下图四个标签也对应四个同样的标签。

采集规则1.png

采集规则2.png

    完成以后在任务列表中勾选采集、发布,然后点击开始即可运行。在默认情况下,火车采集器会把采集的数据先保存到自己的数据库,然后根据用户设置的发布配置,再从数据库里面读出数据通过发布配置把数据发布出去。

    但我们也可以选择让采集器采集到的数据不保存到数据库,而是直接通过发布配置发布出去,也就是发布相关设置中的“边采集边发布”,发布时也可以选择正序倒序乱序等,主要看用户自己的使用需求了。


标签: 火车采集器V9 文章采集器

评论(0) 引用(0) 浏览(6656)

网页抓取工具:大数据岗位必备

作者:dong 发布于:2016-7-1 16:58 Friday 分类:官方公告

大数据行业的蓬勃发展,引发了各行各业对大数据岗位人才的强烈需求,如果你也想尝试高端的大数据岗位,那一定要具备以下技能,才能得心应手地完成工作指标。

 大数据.jpg

一、基础开发


大数据的基础开发主要有数据抓取、数据处理和归类存储,对于海量的数据抓取而言,需要考虑的是抓取的实时性、准确性以及完整性,而对于数据处理和存储则主要是及时更新,排重过滤等。


在基础开发方面,通用的网页抓取工具火车采集器是必备工具之一。通过对网页架构的简单分析和规则的相关配置,火车采集器能确保采集高效稳定地进行,且自带强大的数据处理体系和多数据库发布存储的功能,帮助大数据的基础开发在一个工具中顺畅完成。


值得一提的是,火车采集器的智能化和自动化大大降低了操作人员对技术的要求,不再需要耗费大量精力去针对不同的网页写不同程序了,全网通用的网页抓取工具就可以轻松操作。


二、数据分析


数据分析师要对现有的数据进行统计分析,结合现有业务从中发现一些规律与趋势。那么数据分析报表是肯定需要的,当数据量一大,就会涉及在集群环境下的分析,这就要求分析师熟悉SQL,还需要对数据的有很强的解读能力,能分析和解读出一些现象产生的原因,同时需要针对这些问题,提出一些可能的应对方案,并通过分类、聚类和个性推荐等常用数据挖掘技术和算法,服务于业务系统,以便对业务策略或者商业方向上有更多的指导。


当然这还要求分析师具体丰富的专业知识,比如金融等领域的数据挖掘就需要有丰富的金融经验作为分析基础。


这里主要说的是两大方向的数据岗位,其实数据相关的细分职位是各种各样的,只有充分掌握其中的技能,才能高效地完成任务。从事大数据岗位,必须多学习工具、多去阅读,以适应快速变化的市场环境和行业需求。


评论(0) 引用(0) 浏览(6429)

抓取网页数据工具的内容获取方式

作者:dong 发布于:2016-6-28 17:02 Tuesday 分类:官方公告

   抓取网页数据的工具火车采集器在获取内容时,需要对数据内容的标签进行编辑定义,在火车采集器V9中对数据内容标签进行编辑定义,从而获取数据的方法有三类:A).从源码中获取数据B).生成固定格式的数据C).已有标签组合,下面分别讲解下具体的含义。

A).从源码中获取数据:可精确地设置标签的来源是从默认页的源码、返回头信息和网页地址中,或者是分页、循环分块、多页中。其源码提取的方式包括: 前后截取、正则提取、正文提取、Xpath提取,JSON 提取五种,后面详细示范。

B).生成固定格式的数据:可生成固定的字符串、系统时间、随机字符串、随机数字、系统时间戳,随机抽取信息。

C).已有标签组合:可通过组合已有的标签,来生成新的标签内容。

其中最常用的是从源码中获取数据,其对应的五种获取方式的操作如下:

A.a).前后截取

通过设置开始字符串和结束字符串,来获取中间的字符,可以在开始和结束字符串中设置通配符(*)。比如一段源代码为“<title>标题</title>”,那么其中的标题就是我们需要的内容,我们在火车采集器V9中写作:

 

火车采集器1.png

A.b).正则提取

支持两种正则,一个纯正则,一个参数正则。

先介绍纯正则,举个例子,如:前字符串 (?<content>[\s\S]*?)后字符串,这个正则其实效果跟前后截取一样,如需要获取全部代码,则为^(?<content>[\s\S]*?)$ ,此功能运用需有一定的正则基础。

关于参数正则,是通过参数组合,来生成内容。比如说要匹配标题为“新用户注册”和作者“神秘嘉宾”,代码如下:

<div>

      <h2>新用户注册</h2>

<div id="tools">【作者:神秘嘉宾】【字号:<a href="#">大</a>

设置如图:

火车采集器2.png

需要获取的字段用参数表示,不需要的字段或空格用星号代替;在组合结果里可以对多个参数进行组合。

A.c).正文提取

注意这种方式只适合格式较为规则的多文字数据提取,例如新闻文章。它不需要设置复杂的规则,
可智能分析提取文章正文,文章标题,以及发布时间。

火车采集器3.png

A.d).Xpath提取

通过Xpath表达式来获取数据,比如//div[@id=’content’],就是获取id为content的div,可指定要获取html节点的属性,比如 Innerhtml、Outerhtml、Innertext、Href属性。(注意:这种有一定的局限性,对于部分html标签不规范的页面无法解析。)

A.e).JSON提取

通过对JSON形式的数据格式化操作,写表达式来获取其节点数据。这里大家需要注意JSON 是有两种结构,简单的说json就是javascript中的对象和数组,所以这两种结构就是对象和数组两种,通过这两种结构可以表示各种复杂的结构。具体操作另有教程抓取网页数据工具json提取示例讲解,感兴趣的朋友可以研究一下。


标签: 火车采集器V9

评论(0) 引用(0) 浏览(11423)

Powered by emlog