抓取网页数据工具的内容获取方式

作者:dong 发布于:2016-6-28 17:02 Tuesday 分类:官方公告

   抓取网页数据的工具火车采集器在获取内容时,需要对数据内容的标签进行编辑定义,在火车采集器V9中对数据内容标签进行编辑定义,从而获取数据的方法有三类:A).从源码中获取数据B).生成固定格式的数据C).已有标签组合,下面分别讲解下具体的含义。

A).从源码中获取数据:可精确地设置标签的来源是从默认页的源码、返回头信息和网页地址中,或者是分页、循环分块、多页中。其源码提取的方式包括: 前后截取、正则提取、正文提取、Xpath提取,JSON 提取五种,后面详细示范。

B).生成固定格式的数据:可生成固定的字符串、系统时间、随机字符串、随机数字、系统时间戳,随机抽取信息。

C).已有标签组合:可通过组合已有的标签,来生成新的标签内容。

其中最常用的是从源码中获取数据,其对应的五种获取方式的操作如下:

A.a).前后截取

通过设置开始字符串和结束字符串,来获取中间的字符,可以在开始和结束字符串中设置通配符(*)。比如一段源代码为“<title>标题</title>”,那么其中的标题就是我们需要的内容,我们在火车采集器V9中写作:

 

火车采集器1.png

A.b).正则提取

支持两种正则,一个纯正则,一个参数正则。

先介绍纯正则,举个例子,如:前字符串 (?<content>[\s\S]*?)后字符串,这个正则其实效果跟前后截取一样,如需要获取全部代码,则为^(?<content>[\s\S]*?)$ ,此功能运用需有一定的正则基础。

关于参数正则,是通过参数组合,来生成内容。比如说要匹配标题为“新用户注册”和作者“神秘嘉宾”,代码如下:

<div>

      <h2>新用户注册</h2>

<div id="tools">【作者:神秘嘉宾】【字号:<a href="#">大</a>

设置如图:

火车采集器2.png

需要获取的字段用参数表示,不需要的字段或空格用星号代替;在组合结果里可以对多个参数进行组合。

A.c).正文提取

注意这种方式只适合格式较为规则的多文字数据提取,例如新闻文章。它不需要设置复杂的规则,
可智能分析提取文章正文,文章标题,以及发布时间。

火车采集器3.png

A.d).Xpath提取

通过Xpath表达式来获取数据,比如//div[@id=’content’],就是获取id为content的div,可指定要获取html节点的属性,比如 Innerhtml、Outerhtml、Innertext、Href属性。(注意:这种有一定的局限性,对于部分html标签不规范的页面无法解析。)

A.e).JSON提取

通过对JSON形式的数据格式化操作,写表达式来获取其节点数据。这里大家需要注意JSON 是有两种结构,简单的说json就是javascript中的对象和数组,所以这两种结构就是对象和数组两种,通过这两种结构可以表示各种复杂的结构。具体操作另有教程抓取网页数据工具json提取示例讲解,感兴趣的朋友可以研究一下。


标签: 火车采集器V9

评论(0) 引用(0) 浏览(11377)

网页抓取工具实现图、文、链接全采集

作者:dong 发布于:2016-6-6 17:27 Monday 分类:官方公告

如果说互联网像浩瀚大海,那么网页抓取工具就是海底探测器,定位宝藏的准确位置并实现智能捞取。之所以这么比喻是因为互联网容量巨大且瞬息万变,作为信息收集领域的人士,每当看到一类优秀的内容时,想要全面地进行采集却如同大海捞针,耗时耗力。因此,提供一个网页抓取工具用来自动在互联网上抓取数据,并智能分拣和分析,则有着非常重要的意义。

互联网中的数据,有着各种各样的格式,笼统地来说包括图片、文件、文本等主要类别。我们使用网页抓取工具来抓取时,能否实现所有网页、各种格式的通抓呢?目前使用人数最多的网页抓取工具火车采集器V9给予了肯定。

火车采集.jpg

       通常使用火车采集器抓取文本和图片最多的是网站站长和APP后台管理员,他们往往需要对符合自身定位的数据进行整合汇总,再找出符合的数据及时呈现给用户。像是新闻类,图文赏析类,都需要对互联网中的图文数据进行筛选,网页抓取工具火车采集器V9的抓取原理是先获取网址再对网址对应的页面进行源代码解析,提取速度快且错误率低,而且可以定时运行,自动更新数据。

不得不提的是,针对此类需求的用户,火车采集器V9还提供数据处理和发布功能,即不仅实现抓取,还可以对数据进行简单的脱敏,排重过滤等处理,最后自动发布到目标数据库,完全智能化的连贯操作备受用户青睐。

火车采集器1.png

而学者们最爱抓取的格式则是文件,因为互联网中公开分享着大量文献资料,且许多资料都是文档、压缩文件的格式,学者们一个个地去下载不仅浪费了科研的宝贵时间,而且导致了工作效率的下降。如果可以模拟人的操作去打开网页,下载并保存文件则会事半功倍,火车采集器V9正是基于用户们的这种需求,开发了文件探测下载的功能,而且支持自动登录,一解部分内容需登录才可见的难题。

自动化工具是解放人类双手的最佳利器,所以有关舆情监控、企业营销、视频链接等需要分拣数据的业务领域也都在网页抓取工具的帮助下变得更加便捷。有了网页抓取工具火车采集器V9软件,图片、文字、文件、链接等各种数据类型的全网采集都可以轻松实现。

标签: 网页抓取工具 火车采集器V9

评论(0) 引用(0) 浏览(3417)

数据抓取软件火车采集器如何导入TXT 、EXCEL数据

作者:dong 发布于:2016-6-3 11:22 Friday 分类:官方公告

数据抓取软件火车采集器V9中,我们可以导入TXT/EXCEL数据,即导入本地已经存在的TXT或是Excel文件中的内容到火车采集器V9的数据库中,这些导入的数据可以用来在发布或其他的操作中使用。具体操作方式如下:

首先进入数据抓取软件火车采集器的工具菜单——批量任务处理——导入数据。

1、导入TXT,将需要导入的TXT放置到一个文件夹内,选择任务、文本/Excel目录、编码等。

火车采集1.png

注意:请确定原任务中有标题和内容2个标签!请确认文本编码。文本 “打开——另存为”可看到编码。TXT中ANSI编码对应gbk,TXT中utf-8编码对应utf-8,选择对应的编码即可。如下,导入成功。

火车采集2.png

2、导入EXCLE数据,将excel文件放置到一个文件夹内

火车采集3.png

注意:以上图为例,其中表格第一行字段,即为采集任务的标签。所以请确定原任务中含有姓名、性别、
    年级、价格这4个标签才能正确导入!

火车采集4.png

    按照上面的示例,数据抓取软件火车采集器V9的TXT / EXCEL文件数据导入就完成了,操作还是非常简单的,那么接下来大家就可以用导入的数据来进行发布等个性化的操作了。


标签: 火车采集器V9 数据抓取软件

评论(0) 引用(0) 浏览(4930)

网站抓取精灵火车采集器的多页抓取教程

作者:dong 发布于:2016-5-24 10:02 Tuesday 分类:官方公告

    熟悉网站采集的朋友应该都知道,当我们要采集的信息不在当前默认页,而在当前默认页
某一个链接的所在页时,我们就需要用到多页地址管理,在火车采集器V9中多页管理的操作如下:

    我们以内容页网址 http://kimi201406.1688.com/page/creditdetail.htm 为例,来获取它的公司介绍和联系方式页面的联系方式信息。

    公司介绍在网址 http://kimi201406.1688.com/page/creditdetail.htm 里获取,而联系方式信息在网址http://kimi201406.1688.com/page/contactinfo.htm 里获取。所以我们需要借助多页功能来实现。前者叫默认页地址,后者叫做多页地址。

    流程:点击①创建多页,进行②多页设置,然后在数据来源③选择多页调用,最后根据多页源代码设置提取方式。

1@.png

   下面重点讲解,多页地址的两种获取方式:页面地址替换和源码中截取。

1.页面地址替换:也就是默认页和多页地址有相同的地方,通过简单的替换就可以变成多页地址。

    比较默认页“http://kimi201406.1688.com/page/creditdetail.htm”和多页地址:“http: //kimi201406.1688.com/page/contactinfo.htm”之间的共同点,可以发现默认页“creditdetail.htm”替换为“contactinfo.htm”就是我们的多页地址了。

设置如下图:

2@.png

注:正则表达式中 (.*) 为任意通配符。$1,$2$数字来按照顺序对应上面(.*)表示的部分。若要对多页源码部分区域做限定,可在指定多页源码区域设置。
若留空则默认返回多页整个源代码。设置好以后,点击测试查看结果即可。

2.源码中截取:也就是多页的地址在默认页的页面源代码里面。

如图,可以看到默认页源码中存在多页地址。

3@.png


所以设置如下:

4@.png

 测试后如正确则保存即可。最后设置数据来源和提取方式,如图:

5@.png

注:如需要多级多页,则在多页地址获取方式选择需要的多页即可

6@.png

  这两种获取方式大家掌握了吗,今后在抓取网站时使用火车采集器V9的上述操作就可以很容易地获取到关联的多页地址了,作为一款功能全面的网站抓取精灵,火车采集器一定会充分考虑到用户的使用需求,以及如何最大化实现便利。​


标签: 火车采集器V9 网站抓取精灵

评论(0) 引用(0) 浏览(4064)

网站抓取精灵火车采集器如何获取内容网址

作者:dong 发布于:2016-5-16 16:13 Monday 分类:官方公告

  我们在使用网站抓取精灵​做采集时,往往需要先从网页的初始网址开始获取内容页网址,那么火车采集器进入列表页后,如何进一步获取内容网址呢,下面就请新手们一起来看看内容页网址采集规则如何制作。
    在火车采集器V9中,内容网址获取有常规模式和高级模式两种。
    1.常规模式:该模式默认抓取一级地址,即从起始页源代码中获取到内容页A链接。它有两种方式:a.自动获取地址链接 b.手动设置规则获取。
    2.高级模式:该模式对0级,多级,POST类型网址的抓取有效。即起始网址就是内容页网址;或者需要对多级列表网址采集才能得到最终内容页链接;或者是post网址类型抓取等情况下使用高级模式。
    这里详细说明下常规模式中a和b两种方式采集的具体操作,高级模式待后续讲解。
[常规模式]a.自动获取地址链接
     自动获取地址链接:自动获取该级列表页中所有的标签<a href="URL">内的URL链接。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

获取结果如图:

规则1.png

    根据统计我们可以看到,发现共计81个一级网址,但实际我们需要抓取的1级网址是每页40个,说明其中有我们不需要的链接,所以我们可以通过区域设置链接过滤,来筛选获取我们所需要的链接。用浏览器点击查看网页源代码,分析源码得出,所需链接应符合以下条件:
开始字符串为
<ul> 
结尾字符串为 <!-- 分页 begin -->

    我们将其填入设置区域,再进行测试一次,并查看结果。通过测试可以看出结果是正确的,如下图。

规则2.png

规则3.png


[常规模式]b.手动设置规则获取

    对于有些由脚本生成的网址,采集器不能自动识别,此时就要手动设置规则获取了。手动设置规则获取的原理是编写脚本规则,去和源代码里的内容匹配,获取到自己设置的参数即可。其中提取规则里的[参数]、(*) [标签:XXX] 都是通配符,可以统配任意字符,而区别在于[参数]有返回值,一般用于拼接地址,(*)没有返回值,[标签:XXX]有返回值,返回值给标签。如新浪内地新闻:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml

有如下源码:

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmpy1472664.shtml" target="_blank">山西公布政府部门责任清单 建立拒腐机制</a><span>(10月10日 20:20)</span></li>

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirwnr6902154.shtml" target="_blank">河南登封市长被举报建寺涉贪 与释延鲁关系密切</a><span>(10月10日 20:14)</span></li>

    <li><a href="http://news.sina.com.cn/c/nd/2015-10-10/doc-ifxirmqc5006034.shtml" target="_blank">张家界国土局副局长涉严重违纪被查</a><span>(10月10日 19:45)</span></li>

    此时,我们可以取其中的一条代码作为循环匹配,把我们要获取的链接替换成[参数],需要采集到的值替换成标签。 如下填写提取规则:

    <li><a href="[参数]" target="_blank">[标签:标题]</a><span>([标签:时间]) </span></li>

规则4.png

 如上图,这样符合该格式的源码就会进行自动匹配,参数中获取到的就是内容页地址链接,标签中就分布是标题和时间了。

    到这里,网站抓取精灵火车采集器V9获取内容网址的常规模式设置就完成了,大家只要看过就会觉得比较简单,火车采集器V9软件需要大家多学习,这样上手就会非常容易了。

标签: 火车采集器V9 网站抓取精灵

评论(0) 引用(0) 浏览(5085)

Powered by emlog