【东哥福利】火车采集器V9微信公众号文章采集规则分享

作者:dong 发布于:2017-6-22 17:04 Thursday

今天给大家分享微信公众号文章采集,通过搜索关键词采集相应的文章本规则没有什么难度适合初学者。以下也简单作讲解!

本规则采集搜狗微信公众号文章信息为例,本规则以通过关键词搜索,采集相应文章为例。

详情及规则下载:http://bbs.locoy.com/spider-151130-1-1.html

评论(0) 引用(0) 浏览(13143)

【东哥福利】火车采集器V9优酷视频电视剧采集规则分享

作者:dong 发布于:2017-6-22 16:20 Thursday

本规则优酷网电视剧信息为例此规则案例主要使用到多级、多页及循环功能。本规则仅用来学习参考,对超过40集以上的电视剧采集不全,也有可能曾在其他问题,请自行修改。

因使用到多级、多页及循环功能,本规则免费版用户可使用


详情及规则下载:http://bbs.locoy.com/spider-151112-1-1.html


评论(0) 引用(0) 浏览(16707)

【东哥福利】火车采集器V9优酷视频电视剧采集规则分享

作者:dong 发布于:2017-6-22 15:26 Thursday


今天给大家分享优酷视频网站的电视剧信息采集,因使用到的多级、多页、循环功能在之前的案例都有介绍过,今天这里不再做案例讲解。优酷的采集主要难点是剧集地址需要抓包,还有超过40集的如何采集,本分享规则,不能采集40集以上的,我在这里抛砖引玉,大家可以在此基础上再去研究,自己学会的才是真正自己的。


详情及规则下载:http://bbs.locoy.com/spider-151093-1-1.html

评论(0) 引用(0) 浏览(11831)

东哥福利】火车采集器V9版JSon功能讲解及示例规则分享

作者:dong 发布于:2017-6-22 15:24 Thursday

【东哥福利】火车采集器V9版JSon功能讲解及示例规则分享
今天为大家分享一个使用到Json功能的规则,今天这里主要讲解如何使用JSon,本规则,仅以一个淘宝的保险产品单页内容采集作示例。

查看详情及下载规则:http://bbs.locoy.com/spider-151093-1-1.html

评论(0) 引用(0) 浏览(15145)

各行各业的巨头最重视的数据是哪些?

作者:dong 发布于:2017-6-16 17:28 Friday 分类:官方公告

各行各业的巨头最重视、最具价值的数据是哪些?这里就和大神们分享一下,希望可以帮助大家规划采集,但是涉及隐私的数据请勿触碰,千万不要以身试法,不然会把自己或你们的老板坑进去待个3-7年,那……真的会错过很多数据的~

腾讯的用户及社交数据

再好的游戏或者应用,都会面临更新迭代,要想火的再久一点就必然离不开社交。QQ和微信,对接社交属性的游戏或应用的必经渠道,像是开心消消乐,王者荣耀,全民K歌,天天P图等哪一个可以离开社交持续活下去?

图片.png

这也是腾讯的核心价值所在,游戏做得好很关键,但强大的社交必会大大润色。来看看腾讯2017一季度的综合业绩:营收495.52亿元,期内盈利145.48亿元,也就是说平均每天1.6亿的利润!富可敌省呐,重点来了,其中收益大头还是来自网络游戏增值服务。

王健林说我们先定他一个亿的小目标,结果腾讯在中午下班前就完成了。

阿里的商家数据

阿里系有价值的数据太多,毕竟涉猎太广。但如果真要追本溯源,或许可以算得上是电商供应链数据,也就是大家常用火车头采集的商家数据(公开信息,非隐私数据)。交易数据姑且放到一边,因为众所周知,淘宝是电商开创平台,后来的同类平台做的再努力,也始终无法赶超淘宝庞大的供应体系,没有商家,那么用户的第一感觉就是,选择性小,果断放弃。这一点,看看拍拍网就很明显了。

豆瓣的评分数据


如果没有评分数据,豆瓣的用户会流失到哪里?想必是时光网(你也许会问,时光网是什么鬼?),因为豆瓣的优势在于点评的高参与度,但点评质量却被部分人士吐槽不如时光网专业。可专不专业对于一个单纯想看且还未看电影的人来说毕竟不好置评,于是这种情况下,人们总是会选择站队“人多势众”的一方,和人们选择淘宝放弃拍拍的理由一样,因为开创者豆瓣率先培养好了信息供应链。

图片.png

比如最近评分低到无下限的深夜食堂,小采一看豆瓣4万多人评分的结果才2.3分就果断放弃了,谁又会再去一一品味时光网的70条,哪怕很精致的剧评呢。

知乎优质的信息流

知乎是一个内容型的社区,而不是一个关系型的社区,与广场效应的微博不同,与社交属性的QQ空间也是不同的,所以用户数据其实不见得那么重要(当然也不是完全不重要),反而是内容组织上更有吸引力,所以虽然之前我们有大神抓取分析过知乎的用户画像,但也仅供娱乐而已,相比之下,火车头大神里抓取知乎问答内容的要更多一些。

采集.GIF

百度的搜索数据、定位

基于百度搜索的大数据呈现出来之后,就具备了挖掘、预测和关联的功能,凭数据而不是单纯凭经验来判断,这样的大数据思维让百度的价值更上一层楼。

百度定位数据则可感知用户线下移动行为,以此研究人群迁徙、商圈分析、商家选址、路线、导航挖掘等,像是每年春节的百度迁徙数据,就真实地反映了百度对大数据的掌握和技术处理运用能力。诸如出行、O2O、本地新闻阅读、基于位置的社交通讯等应用对定位数据都是刚需。

采集1.PNG

标签: 大数据 火车头采集

评论(0) 引用(0) 浏览(17990)

Powered by emlog