采集分析:中国有嘻哈的歌手都在唱什么

作者:dong 发布于:2017-8-26 18:00 Saturday 分类:官方公告

七月嘻哈音乐席卷中国

揭开freestyle的地下王国

蛤蟆镜,肥T恤,夸张的牛仔裤

以前是格格不入现在人人都说Cool

中国rapper唱的想的要的都是啥

看小采用大数据给你们分析一下~

1.jpg

 

这个夏天好像身边的朋友突然都学会了freestyle,什么yaoyao切克闹已经太老套,而每一期的中国有嘻哈都让人看的非常带感,不过那火箭般的语速唱下来,小采表示并没有听清他们唱的都是啥,作为IT行业里试图打破boring标签的跨界小迷妹,当然要发挥出自身的优势,不仅能弄清他们唱的是啥,还会概括他们的特征。


来吧,火车采集器嗨起来,数据分析走起来~~~


既然要采歌词数据当然要确定采集源,网易云音乐的嘻哈榜电台就收录了每一期节目的歌曲,不过虾米音乐的url规律更强,标签也更符合要求,so我们确定采集虾米音乐。

选定歌曲标签——中国有嘻哈。

2.jpg
3.png

 

 哎哟,是Bridge的《老大》,我想在跑车里,想要一辆法拉利~



这种难度的采集规则如果是我们火车头的大神估计几分钟就可以搞定了吧~

附规则截图,想要规则的私聊小采呀~(虾米音乐要登录,记得设置cookie哦~)

4.png
5.png

600首歌曲,进入歌曲详情并采集全部歌词,很快小采就边听着歌边掌握了歌词的小秘密~~然后我们对数据进行一下清洗和中英文的分别分词,最后对分词后的数据进行一番统计就可以得到以热门词汇图展示的高频词汇。 

5.jpg

7.jpg

最终我们发现,“世界”和“时间”占据首位,可见嘻哈歌手们喜欢通过音乐来表达对世界的情绪,或愤懑,或热情全都看心情~而“老子”、“兄弟”、“baby”、“money”、“bitch”、“real” 等词也是让 rapper 的形象呼之欲出。


没错,爱票子也爱妹子,爱兄弟更要接地气。


还有rapper 的词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己的音乐真的非常在乎。嘻哈音乐由于有 freestyle 的文化,对亲自写词有要求,否则就不 “ real ” ,从节目中他们对偶像 rapper 的 diss 也能看出来。


嘻哈人的眼中,豪车和美女是标配,豪车里最爱的是宝马奔驰和法拉利,或许是因为容易匹配韵脚?而夏利却也出现在高频车类词语中,why?后来小采想了想大概是宣泄负面情绪时会用的词汇,比如买不起法拉利因为爸爸只给了一辆夏利。


爱钱爱美女,嘻哈人很接地气。但其实也透露着嘻哈人的说唱生涯并不像他们的着装打扮那样看起来十分随性,他们也受困于经济因素,之前有爆料称人气很高的GAI月收入仅千元左右,每场演出不过三百元,不过现在不知道商家们需要花费多少才请的起呢~~

自这个夏天嘻哈浪潮的掀起,我们对这种音乐方式有了全新的认识,未来中国的rapper大概要迎来一个有嘻哈的全新世界了。


最后,让小采为火车采集器​来一段freestyle~

大数据的时代里

数据价值不可预计

多少个日夜里

火车采集器在陪你

老板不敢炒你鱿鱼

因为你会数据分析

不懂代码也没关系

火车头上手超容易

 

标签: 火车头采集

评论(0) 引用(0) 浏览(12372)

各行各业的巨头最重视的数据是哪些?

作者:dong 发布于:2017-6-16 17:28 Friday 分类:官方公告

各行各业的巨头最重视、最具价值的数据是哪些?这里就和大神们分享一下,希望可以帮助大家规划采集,但是涉及隐私的数据请勿触碰,千万不要以身试法,不然会把自己或你们的老板坑进去待个3-7年,那……真的会错过很多数据的~

腾讯的用户及社交数据

再好的游戏或者应用,都会面临更新迭代,要想火的再久一点就必然离不开社交。QQ和微信,对接社交属性的游戏或应用的必经渠道,像是开心消消乐,王者荣耀,全民K歌,天天P图等哪一个可以离开社交持续活下去?

图片.png

这也是腾讯的核心价值所在,游戏做得好很关键,但强大的社交必会大大润色。来看看腾讯2017一季度的综合业绩:营收495.52亿元,期内盈利145.48亿元,也就是说平均每天1.6亿的利润!富可敌省呐,重点来了,其中收益大头还是来自网络游戏增值服务。

王健林说我们先定他一个亿的小目标,结果腾讯在中午下班前就完成了。

阿里的商家数据

阿里系有价值的数据太多,毕竟涉猎太广。但如果真要追本溯源,或许可以算得上是电商供应链数据,也就是大家常用火车头采集的商家数据(公开信息,非隐私数据)。交易数据姑且放到一边,因为众所周知,淘宝是电商开创平台,后来的同类平台做的再努力,也始终无法赶超淘宝庞大的供应体系,没有商家,那么用户的第一感觉就是,选择性小,果断放弃。这一点,看看拍拍网就很明显了。

豆瓣的评分数据


如果没有评分数据,豆瓣的用户会流失到哪里?想必是时光网(你也许会问,时光网是什么鬼?),因为豆瓣的优势在于点评的高参与度,但点评质量却被部分人士吐槽不如时光网专业。可专不专业对于一个单纯想看且还未看电影的人来说毕竟不好置评,于是这种情况下,人们总是会选择站队“人多势众”的一方,和人们选择淘宝放弃拍拍的理由一样,因为开创者豆瓣率先培养好了信息供应链。

图片.png

比如最近评分低到无下限的深夜食堂,小采一看豆瓣4万多人评分的结果才2.3分就果断放弃了,谁又会再去一一品味时光网的70条,哪怕很精致的剧评呢。

知乎优质的信息流

知乎是一个内容型的社区,而不是一个关系型的社区,与广场效应的微博不同,与社交属性的QQ空间也是不同的,所以用户数据其实不见得那么重要(当然也不是完全不重要),反而是内容组织上更有吸引力,所以虽然之前我们有大神抓取分析过知乎的用户画像,但也仅供娱乐而已,相比之下,火车头大神里抓取知乎问答内容的要更多一些。

采集.GIF

百度的搜索数据、定位

基于百度搜索的大数据呈现出来之后,就具备了挖掘、预测和关联的功能,凭数据而不是单纯凭经验来判断,这样的大数据思维让百度的价值更上一层楼。

百度定位数据则可感知用户线下移动行为,以此研究人群迁徙、商圈分析、商家选址、路线、导航挖掘等,像是每年春节的百度迁徙数据,就真实地反映了百度对大数据的掌握和技术处理运用能力。诸如出行、O2O、本地新闻阅读、基于位置的社交通讯等应用对定位数据都是刚需。

采集1.PNG

标签: 大数据 火车头采集

评论(0) 引用(0) 浏览(9654)

Powered by emlog