网页数据抓取之自动分类功能

作者:dong 发布于:2016-9-10 16:57 Saturday 分类:官方公告

我们在使用火车采集器进行数据抓取的时候,会需要将采集内容包含某个字的所有内容都替换为某个固定的内容。使用场景如:我们从网站采集城市名称,然后城市名称示例:浙江省杭州市,我们需要将这个内容替换为杭州,这时就可以使用自动分类功能。

下面以百度为例介绍下用法,首先在火车采集器V9建立规则,内容采集规则的标签编辑如下:

1.png

 

如上图,我们想要将包含百度的标题 内容更替换为常用搜索网站,则写成如下格式:

2.png

 

运行结果为:

3.png

 

就是数据抓取时将某字段所有内容自动分类的使用方法,在操作需要注意的是

1一行一个分类,可以写多个分类。若是一个关键词符合多个分类,则优先替换上面的分类,火车采集器中是按照从上至下的原则替换。

2若是所有分类不符合的情况下,你想要将关键词赋予为一个默认值,按下图操作:

 

4.png


学会数据抓取的自动分类操作,对包含同类字段的内容进行分类就方便多了,大家也操作试试吧。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(7497)

网页抓取工具打造大数据“智媒体”

作者:dong 发布于:2016-7-29 16:03 Friday

当下的媒体现况,在一个焦点事件发生后或某一持续性的话题中,要想形成一个媒体专题本来需要很多的人工操作,比如信息收集分拣,及时更新等,但高效的网页抓取工具将给我们创造一个大数据智媒体。

智媒体.png

通过网页抓取工具火车采集器能够自动收集出焦点事件在网络中对应的舆情。比如一个连续发生多日的事件,在每一个重要的节点时间里都要对数据进行抓取更新,那么只需要在火车采集器中设置更新时间和频率就可以了。再比如我们关注的金融行情,也能够时刻更新并自动整理成动态的媒体专栏。

而对于焦点中某几个方面的关注程度,同样可以根据网页抓取工具抓取所得的阅读量或关注量数据来进行排序推荐和智能分级。我们甚至可以用网页抓取工具来维护一个智能媒体站,用户要做的是锁定几个或更多的信息输出页,在网页抓取工具火车采集器中给出信息输出页后,配置网址抓取和内容抓取的详细规则,获得所需数据后可对数据进行一系列的排重、筛选、清洗处理,最后还能选择自动、定时地将处理过的精华内容发布到网站指定的栏目。

火车采集器.jpg

未来的智媒体必然是大数据作为引擎的媒体,核心要素就是具备规模的数据,我们要学会有效的使用数据,并发挥数据的价值。国内已经有基于媒体稿件大数据推出的高科技媒体产物,让人们更加快速准确的获知讯息,帮助人们更好地去发现信息的价值和本质。

有专家提出,如果没有大数据的支持,其实许多新闻都是无从下手的,在传统的媒介中很难有智能分析、预警或是决策,因而大数据智能化是必然趋势。

但是目前网页大数据打造的智媒体却并不能完全取代人脑的工作,因为对知识或事件人脑是有自我理解倾向的,而人工智能对语言文字分析还需要继续探索,将大量枯燥的内容进行融合,抽取其具体化信息,或许有一天还能够代替人脑来实施更加复杂的原创,那时的智媒体会更加个性化、定制化、高效化。


标签: 网页抓取工具 火车采集器V9 大数据

评论(0) 引用(0) 浏览(4265)

抓取网页数据工具标签组合的使用方法

作者:dong 发布于:2016-7-22 13:59 Friday 分类:官方公告

   抓取网页数据工具火车采集器V9将标签组合功能放在了数据获取方式选项中,即可以通过标签组合来获取标签数据,下面讲解一下该功能如何使用。学习之前需要注意以下几种情况:

1.标签组合是组合文件下载前的内容

    有的朋友发现,a标签中下载了某个文件,原始地址是aaa,下载后或是探测的地址为bbb,那么,如果您在b标签中组合使用a标签,a标签的值是aaa.为何使用这种处理方法,是因为文件下载是在标签组合之后进行的。如何达到标签内容是文件下载完后的结果呢?可以新建一个标签,选“自定义固定格式数据”,将您标签组合的内容放进去。这里的替换会在文件下载后执行。

2.内容页标签循环采集并添加为新记录

    如果组合的两个标签都是内容页标签,这两个标签在组合时,会按循环数最大的记录产生新的同样数目的循环记录。如果某个标签的循环数较少,则新产生的标签中该标签的值为空。例如标签a,b组合生成标签c。a的循环数是5,b的循环数是3,则会生成5个c,其中,前3个标签的值分别是a,b一一对应的。最后两个值中,b的值为空。比如我们假设a的值是11、22、33、44、55,而b的值为aa、bb、cc,那么c是由[标签:a][标签:b]组合的,则产生的c的值为11aa、22bb、33cc、44、55,后面两个b值为空。

3.列表页标签和内容页标签组合

如果两个标签中一个是内容页,一个是列表页,则内容页是会参加第2条中的循环处理,在这个过程中列表页先当作一个字符串处理。合并完成后,程序会再进行数据处理操作。最后,组合标签中的列表页标签内容将被替换成实际的值。组合后的结果中,可以再提取下载。比如内容页a和列表页b组合生成c,其中a的值为11、22、33,b的值为bb,那么,c第一次组合结果是11[标签:b]、22[标签:b]、33[标签:b],然后进行数据处理:如果b的值是bb,那么最后的结果就是11bb、22bb、33bb。
下面来实际操作下,已有标签的组合操作示例如下:

  我们把“标题”和“来源”标签组合成一个新标签“标题+来源”,之间用“___”隔开,我们测试下结果如下图,查看该标签内容可以看到测试结果和预期效果是一样的。

那么生成固定格式数据的组合方式怎么操作呢?看下图:

再测试一下,可以看到测试结果和已有标签组合的结果是一致的。

标签: 火车采集器V9

评论(0) 引用(0) 浏览(5781)

网页抓取工具:帮助电子商务获取大数据财富

作者:dong 发布于:2016-7-21 15:26 Thursday

电子商务在交易的过程中,除了可以产生利润,产生的大数据也是一笔财富。无论是买家购买行为、兴趣及支付数据,还是卖家的经营、财务数据,都有助于企业发掘出更大的商业价值。

buy.png

大数据是电商新财富

今年6月底发布的《中国电子商务报告(2015)》显示,2015年,中国电子商务交易额达到20.8万亿元,同比增长约27%。大规模的交易额背后,产生了庞大的数据量。

对此,咨询公司麦肯锡亚洲区负责人刘家明认为,电商的未来还有更大的增长空间,除了销售盈利,电商的另一个宝贵财富就是数据。“电商的交易产生了庞大的数据,通过大数据相关工具,就可以整合抓取并实时分析,企业可以用它更加了解客户,预测消费者在买什么,需要什么,这会让公司更好地针对目标客户销售和改进产品”。

电商的交易过程中会产生用户的真实信息,比如工作、居住地址信息,还有其银行卡对应的消费信息,包括了消费频次、消费金额、购物偏好、品牌偏好等,这些直接决定了一个人的消费能力,蕴含极大的商业价值。但目前最重要的问题是,电子商务商家往往还不具备从外部获取竞品数据的能力,对自身拥有的数据也缺乏整合或是处理的方法和技术。

网页抓取工具助力数据获取

在淘宝、京东等电商页面中,相似或竞品产品的商品属性(商品介绍、图片、价格、销量、评价)都可以通过网页抓取工具火车采集器来抓取收集,并可自动更新。网页抓取工具是能够自动采集网页数据的高效工具,同时也能够快捷地处理数据,在火车采集器中,除了自带的一系列排重、过滤等处理外,也提供插件  


火车采集器0.jpg

资源以完成更加复杂的处理需求,对于非技术人员来说,不失为一个便捷好用的工具。

电子商务数据的利用价值

利用电商数据可以为商家降低物流、库存等成本,借助竞品的营销策略提升交易转化率,了解怎样更合理储备商品品类以及做好物流压力预判和处理,用最短的步骤推荐给用户最想买的物品,这样平台的利润也会随之提升。

如果还能够从外部渠道(比如数据定制、数据超市)获得电商交易数据,则能更容易地找到潜在用户,并有针对性地推荐产品。

当电商大数据遇上征信

在B2B式电子商务交易的过程中,买家与卖家就产品的质量和货款的交付方面存在很大的信用风险,这导致买家不敢轻易更换供货商,卖家压低发货效率,如有电商企业的信用大数据做支撑,可促进卖家的服务升级和买家的多元化选择。企多维征信查询正满足了这一需求,电商大数据遇上征信,双方合作大升级。

电子商务可以边交易边整合大数据新财富,借助大数据的新能力,一定能够带来业务的大幅提升。


标签: 火车采集器V9 大数据 企多维 企业征信

评论(0) 引用(0) 浏览(4321)

文章采集器采集规则和发布模块的对接

作者:dong 发布于:2016-7-6 15:21 Wednesday 分类:官方公告


对于网站维护人员来说,在配置完文章采集规则后,还需要配置发布模块,将采到的内容发布到网站中去。在线发布模块,就是文章采集器通过网站后台,发布文章,也就是将你手动在网站后台发布文章的整个过程包含登录网站后台,选择栏目,到发布文章,这些步骤都写到采集器里面就是在线发布模块,然后规则采集到的值就通过标签名传递给在线发布模块,把数据提交到网站里去。

那么在我们常用的文章采集器​即火车采集器V9中,要如何完成采集规则和发布模块的对接呢,新手朋友们请往下看。

采集规则.png

    如果要选择发布到网站中,就选择Web在线发布,然后勾选已经设置过的WEB配置就可以了。(如果大家还没有掌握发布模块的制作可以参见网页抓取工具火车采集器发布模块制作示例。)

    这里需要提醒大家注意的是:我们所设置的采集内容标签一定要和发布模块的标签个数以及名称都保持一致,否则会导致发布出错,如下图四个标签也对应四个同样的标签。

采集规则1.png

采集规则2.png

    完成以后在任务列表中勾选采集、发布,然后点击开始即可运行。在默认情况下,火车采集器会把采集的数据先保存到自己的数据库,然后根据用户设置的发布配置,再从数据库里面读出数据通过发布配置把数据发布出去。

    但我们也可以选择让采集器采集到的数据不保存到数据库,而是直接通过发布配置发布出去,也就是发布相关设置中的“边采集边发布”,发布时也可以选择正序倒序乱序等,主要看用户自己的使用需求了。


标签: 火车采集器V9 文章采集器

评论(0) 引用(0) 浏览(4386)

Powered by emlog