【东哥福利】火车采集器V9优酷视频电视剧采集规则分享
作者:dong 发布于:2017-6-22 15:26 Thursday
今天给大家分享优酷视频网站的电视剧信息采集,因使用到的多级、多页、循环功能在之前的案例都有介绍过,今天这里不再做案例讲解。优酷的采集主要难点是剧集地址需要抓包,还有超过40集的如何采集,本分享规则,不能采集40集以上的,我在这里抛砖引玉,大家可以在此基础上再去研究,自己学会的才是真正自己的。
详情及规则下载:http://bbs.locoy.com/spider-151093-1-1.html
东哥福利】火车采集器V9版JSon功能讲解及示例规则分享
作者:dong 发布于:2017-6-22 15:24 Thursday
【东哥福利-新手必看】最新最全火车采集器V9版学习资料
作者:dong 发布于:2017-6-22 15:05 Thursday
【东哥福利】火车采集器V9安居客小区信息采集规则分享
【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享
【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享
各行各业的巨头最重视的数据是哪些?
作者:dong 发布于:2017-6-16 17:28 Friday 分类:官方公告
各行各业的巨头最重视、最具价值的数据是哪些?这里就和大神们分享一下,希望可以帮助大家规划采集,但是涉及隐私的数据请勿触碰,千万不要以身试法,不然会把自己或你们的老板坑进去待个3-7年,那……真的会错过很多数据的~
腾讯的用户及社交数据
再好的游戏或者应用,都会面临更新迭代,要想火的再久一点就必然离不开社交。QQ和微信,对接社交属性的游戏或应用的必经渠道,像是开心消消乐,王者荣耀,全民K歌,天天P图等哪一个可以离开社交持续活下去?
这也是腾讯的核心价值所在,游戏做得好很关键,但强大的社交必会大大润色。来看看腾讯2017一季度的综合业绩:营收495.52亿元,期内盈利145.48亿元,也就是说平均每天1.6亿的利润!富可敌省呐,重点来了,其中收益大头还是来自网络游戏增值服务。
王健林说我们先定他一个亿的小目标,结果腾讯在中午下班前就完成了。
阿里的商家数据
阿里系有价值的数据太多,毕竟涉猎太广。但如果真要追本溯源,或许可以算得上是电商供应链数据,也就是大家常用火车头采集的商家数据(公开信息,非隐私数据)。交易数据姑且放到一边,因为众所周知,淘宝是电商开创平台,后来的同类平台做的再努力,也始终无法赶超淘宝庞大的供应体系,没有商家,那么用户的第一感觉就是,选择性小,果断放弃。这一点,看看拍拍网就很明显了。
豆瓣的评分数据
如果没有评分数据,豆瓣的用户会流失到哪里?想必是时光网(你也许会问,时光网是什么鬼?),因为豆瓣的优势在于点评的高参与度,但点评质量却被部分人士吐槽不如时光网专业。可专不专业对于一个单纯想看且还未看电影的人来说毕竟不好置评,于是这种情况下,人们总是会选择站队“人多势众”的一方,和人们选择淘宝放弃拍拍的理由一样,因为开创者豆瓣率先培养好了信息供应链。
比如最近评分低到无下限的深夜食堂,小采一看豆瓣4万多人评分的结果才2.3分就果断放弃了,谁又会再去一一品味时光网的70条,哪怕很精致的剧评呢。
知乎优质的信息流
知乎是一个内容型的社区,而不是一个关系型的社区,与广场效应的微博不同,与社交属性的QQ空间也是不同的,所以用户数据其实不见得那么重要(当然也不是完全不重要),反而是内容组织上更有吸引力,所以虽然之前我们有大神抓取分析过知乎的用户画像,但也仅供娱乐而已,相比之下,火车头大神里抓取知乎问答内容的要更多一些。
百度的搜索数据、定位
基于百度搜索的大数据呈现出来之后,就具备了挖掘、预测和关联的功能,凭数据而不是单纯凭经验来判断,这样的大数据思维让百度的价值更上一层楼。
百度定位数据则可感知用户线下移动行为,以此研究人群迁徙、商圈分析、商家选址、路线、导航挖掘等,像是每年春节的百度迁徙数据,就真实地反映了百度对大数据的掌握和技术处理运用能力。诸如出行、O2O、本地新闻阅读、基于位置的社交通讯等应用对定位数据都是刚需。
火车采集器V9起始网址页即为内容页和标签循环采集功能使用
作者:dong 发布于:2017-4-19 14:39 Wednesday
今天给大家分享财富网股票业绩预告信息采集规则。今天的规则相对比较简单,但简单中又有技巧,比如看到这个图的规则,会不会晕呢,怎么就标点符号和通配符呢?今天的规则主要使用了起始网址页即为内容页和标签循环采集功能,下方案例讲解为大家详细说明。
【案例讲解】
今天主要讲解 起始网址页即为内容页和标签循环采集功能,其他略过!
我们要采集的网址:http://data.eastmoney.com/bbsj/201703/yjyg.html
如上图,我们需要采集表格中的信息。
底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图:
通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图:
通过网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图:
通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图:
点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。
直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的)
网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图:
设置好后我们进行测试,出现下图即为设置成功
另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。