采集分析:中国有嘻哈的歌手都在唱什么

作者:dong 发布于:2017-8-26 18:00 Saturday 分类:官方公告

七月嘻哈音乐席卷中国

揭开freestyle的地下王国

蛤蟆镜,肥T恤,夸张的牛仔裤

以前是格格不入现在人人都说Cool

中国rapper唱的想的要的都是啥

看小采用大数据给你们分析一下~

1.jpg

 

这个夏天好像身边的朋友突然都学会了freestyle,什么yaoyao切克闹已经太老套,而每一期的中国有嘻哈都让人看的非常带感,不过那火箭般的语速唱下来,小采表示并没有听清他们唱的都是啥,作为IT行业里试图打破boring标签的跨界小迷妹,当然要发挥出自身的优势,不仅能弄清他们唱的是啥,还会概括他们的特征。


来吧,火车采集器嗨起来,数据分析走起来~~~


既然要采歌词数据当然要确定采集源,网易云音乐的嘻哈榜电台就收录了每一期节目的歌曲,不过虾米音乐的url规律更强,标签也更符合要求,so我们确定采集虾米音乐。

选定歌曲标签——中国有嘻哈。

2.jpg
3.png

 

 哎哟,是Bridge的《老大》,我想在跑车里,想要一辆法拉利~



这种难度的采集规则如果是我们火车头的大神估计几分钟就可以搞定了吧~

附规则截图,想要规则的私聊小采呀~(虾米音乐要登录,记得设置cookie哦~)

4.png
5.png

600首歌曲,进入歌曲详情并采集全部歌词,很快小采就边听着歌边掌握了歌词的小秘密~~然后我们对数据进行一下清洗和中英文的分别分词,最后对分词后的数据进行一番统计就可以得到以热门词汇图展示的高频词汇。 

5.jpg

7.jpg

最终我们发现,“世界”和“时间”占据首位,可见嘻哈歌手们喜欢通过音乐来表达对世界的情绪,或愤懑,或热情全都看心情~而“老子”、“兄弟”、“baby”、“money”、“bitch”、“real” 等词也是让 rapper 的形象呼之欲出。


没错,爱票子也爱妹子,爱兄弟更要接地气。


还有rapper 的词里频繁提到“音乐”、“歌词”、“旋律”、“歌曲”,可见他们对自己的音乐真的非常在乎。嘻哈音乐由于有 freestyle 的文化,对亲自写词有要求,否则就不 “ real ” ,从节目中他们对偶像 rapper 的 diss 也能看出来。


嘻哈人的眼中,豪车和美女是标配,豪车里最爱的是宝马奔驰和法拉利,或许是因为容易匹配韵脚?而夏利却也出现在高频车类词语中,why?后来小采想了想大概是宣泄负面情绪时会用的词汇,比如买不起法拉利因为爸爸只给了一辆夏利。


爱钱爱美女,嘻哈人很接地气。但其实也透露着嘻哈人的说唱生涯并不像他们的着装打扮那样看起来十分随性,他们也受困于经济因素,之前有爆料称人气很高的GAI月收入仅千元左右,每场演出不过三百元,不过现在不知道商家们需要花费多少才请的起呢~~

自这个夏天嘻哈浪潮的掀起,我们对这种音乐方式有了全新的认识,未来中国的rapper大概要迎来一个有嘻哈的全新世界了。


最后,让小采为火车采集器​来一段freestyle~

大数据的时代里

数据价值不可预计

多少个日夜里

火车采集器在陪你

老板不敢炒你鱿鱼

因为你会数据分析

不懂代码也没关系

火车头上手超容易

 

标签: 火车头采集

评论(0) 引用(0) 浏览(13937)

十二年风雨探索路,十二载辛勤耕耘途 火车采集器12岁了

作者:dong 发布于:2017-8-8 16:41 Tuesday 分类:官方公告

 

2005年,火车采集器第一版由乐维创始人火车头对外分享发布,彼时吸引了第一批采集器的口碑用户。也是从那时开始,用户们习惯称之为火车头采集器。

2017年,不断颠覆过往、坚持优化创新的火车采集器已经迎来十二周年。十二年风雨探索路,十二载辛勤耕耘途。十二年里,我们不忘初心,在大数据的道路上不断探索、展望、前行……

感谢你们的一路支持与厚爱,也感谢所有的批评与建议。我们将拿出更好的产品与服务,让时间、经历优惠码成为火车采集器无言的告白。

恰逢火车采集器十二周年庆,新用户购买软件6折起!老用户升级续费全部6折!真真真真真的手慢无!

活动时间:8月8日—8月18日 


 

1、新购优惠码领取方式

 

第一步:点击顶部蓝字关注火车采集器微信公众号 。


第二步:在公众号菜单栏选择个人中心——绑定账号(打开官网登录用户中心——手机扫描个人中心显示的二维码即可完成绑定)优惠码是直接发放至您绑定的账号,所以未注册账号的亲请先在官网www.locoy.com注册账号。


第三步:微信公众号回复“十二周年”领取您需要的优惠码。

640.jpg

 

最低6折起购,还有下单立减120元,大神们注意,领取后只可用于购买优惠码对应的软件产品。不可用火车浏览器优惠码购买火车采集器呢~且每人仅可领取一张,千万不要领错哦~



 

2、老用户升级续费优惠码

老用户6折升级续费优惠码,数量有限,领完为止~

点此领取



十二周年庆,我们团队的小伙伴们也忍不住要真情流露啦,下一个十二周年,希望你们和我们都越来越好,快来看看每天和你们对接的负责人是哪位~

 

未标题-1.jpg

 

你们眼里只看得到两位女神对不对~我也是~(~o ̄▽ ̄)~o 女神温馨提示:看完快去抢优惠码!

 

抢优惠码链接:http://www.locoy.com/activity/zhounianqing

扫码关注微信

评论(0) 引用(0) 浏览(14541)

火车采集器12岁了 十二周年庆 1000个优惠码

作者:dong 发布于:2017-8-8 15:45 Tuesday


2005年,火车采集器第一版由乐维创始人火车头对外分享发布,彼时吸引了第一批采集器的口碑用户。也是从那时开始,用户们习惯称之为火车头采集器。

2017年,不断颠覆过往、坚持优化创新的火车采集器已经迎来十二周年。十二年风雨探索路,十二载辛勤耕耘途。十二年里,我们不忘初心,在大数据的道路上不断探索、展望、前行……

感谢你们的一路支持与厚爱,也感谢所有的批评与建议。我们将拿出更好的产品与服务,让时间、经历优惠码成为火车采集器无言的告白。

恰逢火车采集器十二周年庆,新用户购买软件6折起!老用户升级续费全部6折!真真真真真的手慢无!

活动时间:8月8日—8月18日  



1、新购优惠码领取方式


第一步:点击顶部蓝字关注火车采集器微信公众号 。


第二步:在公众号菜单栏选择个人中心——绑定账号(打开官网登录用户中心——手机扫描个人中心显示的二维码即可完成绑定)优惠码是直接发放至您绑定的账号,所以未注册账号的亲请先在官网www.locoy.com注册账号。


第三步:微信公众号回复“十二周年”领取您需要的优惠码。

640.jpg


最低6折起购,还有下单立减120元,大神们注意,领取后只可用于购买优惠码对应的软件产品。不可用火车浏览器优惠码购买火车采集器呢~且每人仅可领取一张,千万不要领错哦~




2、老用户升级续费优惠码

老用户6折升级续费优惠码,数量有限,领完为止~

点此领取



十二周年庆,我们团队的小伙伴们也忍不住要真情流露啦,下一个十二周年,希望你们和我们都越来越好,快来看看每天和你们对接的负责人是哪位~


未标题-1.jpg


你们眼里只看得到两位女神对不对~我也是~(~o ̄▽ ̄)~o 女神温馨提示:看完快去抢优惠码!


抢优惠码链接:http://www.locoy.com/activity/zhounianqing

评论(0) 引用(0) 浏览(14277)

火车浏览器实现关键词批量搜索

作者:dong 发布于:2017-7-29 17:34 Saturday 分类:官方公告

何为模拟浏览器操作呢?

即我们平时手动使用浏览器时会进行哪些动作,火车浏览器​软件就可以进行模拟自动实现这些动作,继而进一步实现对页面中元素的操作。


比如我们会使用浏览器打开网页,刷新网页,调整页面大小等,这些在火车浏览器软件中是如何实现的呢?我们打开软件的脚本编辑器来学习一下。

软件的脚本编辑器中有专门针对浏览器的流程选择,具体说明如下:

c813f8699f911ff8a17a57f9d61bc7b7.png

标签页操作

我们可以创建标签页和切换标签页,该操作能够实现在一个脚本中打开多个页面,和人工手动操作无异。


打开网页

想要抓取数据就先要打开网页,该操作用来模拟网页打开的步骤。首先需要填写要打开的网址:

e4faddefe205bc604b91ab3cf182bde7.png

①打开网址:填写需要打开的网址。(可以调用文本型变量:将需要打开的网址保存在文本型变量中即可调用。 注意:这里只能调用文本型变量,如果是list变量,则需要循环遍历list变量后保存在文本型变量中才可调用。)

②来源地址:模拟http请求的referer网址,即告诉服务器我们是从哪个页面链接过来的,此处一般可以不用填写。

③Cookie:可以用fiddler抓取页面的cookie(登录信息),保存在文本型变量中,直接调用该变量。

④智能判断网页是否加载完成:勾选则可启用该功能。

⑤超时时间:设定一个时间,若是在此超时时间内,网址仍没有加载完成,就强制结束打开网页这一步,继续运行下面的步骤。

⑥Windows认证:访问页面时有时会需要身份认证,需填入用户名密码,比如在登录路由器时,就需要使用这个功能。

 

Cookie操作

即在火车浏览器中进行cookie的导出、导入或者是清除cookie。

①导出cookie到文本:将火车浏览器中cookie导出并保存到文本中。

②导入文本cookie:将文本中的cookie导入到火车浏览器中。(注意:此时文本中的cookie必须是火车浏览器导出的cookie格式。)

③导入字符cookie:导入火车浏览器中接收的cookie格式。

④清除cookie:即清除火车浏览器中的cookie。

使用场景

①网站需频繁登录:遇到此类网站,可以将登录后的cookie导出。然后下次运行时,可以直接导入登录后的cookie,避免再次重复登录步骤。

②直接退出登录账号:想要直接退出,可以设置清除cookie,则浏览器中的登录信息都会清除。

注意:如果是使用fiddler抓包的cookie,则不能在本步骤使用。可以在打开网页中调用fiddler抓包的cookie。

 

设置浏览器选项

对浏览器的UserAgent、代理等一些基本参数进行设置。

①UserAgent:模拟浏览器信息。可以选择常用useragent中的示例,也可以自己找真实的UA填写。这里只可以调用文本型变量。如果存储大量的UA在list变量中,需要循环遍历list保存至文本型变量,然后这里再调用该文本型变量。

83788d754b60f7b1bab3b2a7054313c1.png

②代理:这里支持http以及Sock4、Sock5类型的代理。

格式形如:http://user:pass@ip:port (socks4://user:pass@ip:port)如果没有用户名密码,那么格式形如http://:@ip:port,例如http://:@127.0.0.1:8888。

如果IP代理地址存放在文本中,可以使用文本读取,读取IP地址保存至list变量,然后循环遍历list变量保存至文本型变量,再调用该文本型变量用于设置浏览器代理,这里需要注意代理的格式需要处理成火车浏览器默认的格式。
③弹出窗口:勾选则允许自动弹出新的标签页。


滚动条设置

滚动当前页面,可设置滚动到顶部、滚动到底部、滚动到指定元素位置的等。针对一些页面信息较多,关键信息需要进行下拉才会出现的情况。

a5ec668eb5c8f2620c1b02e897f35bb2.png

①滚动到指定的元素位置:需要找到指定位置的xpath。

②滚动到指定的坐标:此功能需要结合“设置浏览器大小”功能使用,先确定界面大小,这样在运行过程中,指定元素的坐标不会发生变化。在设置浏览器大小后,将鼠标放在滚动目标元素处,火车浏览器左下角会出现该元素的X、Y坐标,将其写入步骤即可(注意:一定要先设置浏览器大小,再取元素坐标。)

36e8d9d54b5cda970dd872827f596b7a.png

刷新页面

即刷新当前页面。

 

后退一步

顾名思义,即后退到上一个操作界面。

 

网页截图

在当前页面截图并将图片保存在本地。截取方式可以选择截取整个页面、按照区域坐标截取,按照xpath截三种。

①截取整个页面:指定图片保存路径、文件名保存格式,保存文件路径(是将图片保存在本地的路径再保存至变量,此处可以为空)。

注意:保存格式可以选择原文件名以及变量、日期等命名方式。格式结尾要指明图片格式后缀,如jpg、png 等图片格式。如文件名保存格式中填写的名称呈现绿色,则需要在前面加上转义字符 ”\“,如下图。

dddf42d4571ee633ecb771c254aaffbc.png

②截取指定区域:可以借助坐标来截图某一元素。首先找到元素的任意区域xy坐标点,如下图,鼠标放在该区域中,则在火车浏览器左下角,会出现相应坐标,将坐标填在步骤里,则可截取该元素的图片。

注意:在使用此方式时,依旧需要结合“改变浏览器大小”步骤,设置浏览器界面大小,以免运行过程中界面大小变化,导致设置的坐标无效。

878fa4751d2ad28fd4ef45b0e34e4e80.jpg

③截取指定xpath:截取指定xpath元素内的图片。首先要分析出需要截图区域的xpath ,然后将xpath填写在步骤中,即可截取该图片。

 

页面信息

对当前页面中的有用信息进行提取,比如当前页地址,当前页登录信息等。

浏览器窗口大小

此功能可以更改浏览器显示的窗口大小。在前面的滚动到指定坐标和截取指定区域功能中已经介绍过,结合此功能可以保证页面中的x、y坐标不变,能够正确点击到设定的坐标。

 

弹窗信息

操作中如出现alert弹窗,则无法通过xpath获得内容,所以可以通过此步骤获取弹窗信息。注意:只有当整个脚本在右键测试运行,或exe以及项目管理器中正式运行时,才能取得alert中的内容。单个步骤右键测试运行时,是无法获取其中内容的。

 

上面的这些操作通过火车浏览器都可以自动实现,当我们需要反复进行这些操作的时候,比如,批量打开网页进行群发等操作,就能直接用软件来执行,节省大量的人力和时间。

评论(0) 引用(0) 浏览(16814)

大数据是怎样帮互金平台留住你的?

作者:dong 发布于:2017-7-21 16:17 Friday 分类:官方公告

提起互联网金融,人们当下的态度可谓又爱又恨,因为口口相传的“致富”和“跑路”都不绝于耳。在问题平台的数量(3795)已经快达到正常平台数量(2114)两倍之多、且盈利平台尚不足百分之一的现状下,撑到今天的互金平台都不容易,同时,监管机构仍在不断完善整改机制,若不主动退出就必须尝试破壁。

关注大数据观察网(微信公众号:shuju_net)了解更多精彩资讯

图片.png

 

进入互金监管整顿年之后,曾有专家预言,现有的数千家互金平台,最后可能仅有三分之一能够稳步发展下来。于是,越来越多的网贷企业开始将提高风控、降低坏账、提高运营效率放在企业发展的首位,而这最后的救命稻草都需要依靠大数据技术。


大数据风控:降低风险=提高效益


对于消费金融、和企业借贷来说,风控能力直接影响着企业的成败。我们并不是在过分强调风控,但是当风控开始变为企业重心的时候,一定也是企业做大或转型的重要时刻。在这个节点上,避免发生风险这种小概率事件,安全且不冒险地稳步发展起来就已经是成功。

那么举足轻重的风控又是如何借助大数据的呢?

一个成熟的风控系统,应该包含充足的信源、完善的分析模型、丰富的维度,可靠的分析指标等。

看看大家都是怎么做的:

身份验证:以我们火车采集器团队曾经服务过的一个大数据项目为例,合作方是金服企业,所需的身份验证是基于企业信息的大数据,也就是说需要全国企业的多维度信息。我们团队最终集合的数据包括:企业工商资料;企业股东、高管;企业变更信息;潜在风险(失信被执行人、法院裁判文书、经营异常记录);知识产权(商标、著作、专利、域名);自媒体(微信、微博);对外投资;企业年报;经营信息(产品、网店、招投标记录、招聘);媒体报道等。

图片.png

几十余个维度的数据整合后,我们其实已经可以看到一个完整的企业画像。所以即使贷款人是我们不熟悉或者从未听闻的公司,也可以在短时间内对其了如指掌,个人贷款也同样如此。

 

还款意愿和能力分析:主要是对贷款方财务方面的细致分析。还是以企业为例,比如财务报表分析(第一还款来源、现金流、质押担保的价值及变现难易程度等);是否有知名且固定的商业合作伙伴;违约成本(企业经营负担、社会声誉等);政府或银行留存的记录等。

 

数据建模:积累数据打下基础,下一步要做的是构建模型。建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等各种机器学习算法。而我们之前整合的每一个数据带入模型中都会是特征的向量,其实许多细微的特征都会是模型元素,细微到半夜发朋友圈、社交评分高低、邮件打开时间、购买咖啡频率等这些我们可能意想不到的特征。但这些数据从哪里来?别忘了,还有BATJ啊。

 

大数据挖掘客户


互金领域同样遵守二八定律,那么对于互金平台来说,能够带来80%存款的这20%的客户才是真正的目标客户,他们有什么样的行为习惯呢?根据职业、年龄、学历等一系列客户定位数据来决定平台的营销思路才能更加有效的挖掘客户。

而怎样才能留住他们呢?某平台通过现有客户的大数据分析发现,真正的目标客户往往是在充值5次之后达到一个额度然后稳定留存。就像已经火了好一阵子的共享单车,会制定免费骑5/6次后才开始收费一样,互金平台往往会赠送5次优惠券或红包来吸引客户持续进入,如果预测某个客户已经快要结束业务且留存率不高的情况下,就提前发个红包留住他,挖掘与留住客户都是需要数据作支撑的。


大数据优化体验


我们经常会发现,在信用卡或互金账户的透支额度快要用完时总会收到涨额度的提示信息,这就是基于大数据对我们使用体验进行的优化。如果该客户信用值较高,平台却不作调整的话,可能该客户就会因为需要继续借贷而尝试其他平台。且额度的提升也是根据消费场景返回的数据而定,并非毫无根据的调整。

图片.png

 

除了会实时调整的额度之外,秒级放贷也是基于大数据的一大优化。过去很多贷款机构的放贷审核都是通过信审员,近来小采看到一篇信审员的离职自述,放不放款,何时放款、利率多少这些全凭信审员做主的时代早已不复存在,即使在小公司也大多如此,很少再有塞红包求放贷的现象,取而代之的是系统的大数据审核,不足一分钟出具审核结果是互金平台的业务常态,秒级放贷让客户的体验更佳也帮助平台自身提高效率。


大数据、云计算、深度学习、区块链等技术,已逐渐从概念走向落地。线上红利消失和监管严格下的互联网金融企业,转而寄望于通过技术在激烈竞争中生存下来,利用积累的数据,建立模型支持风控和经营决策,或许在不久之后,我们会看到互金领域展现出健康、蓬勃的发展状态。

评论(0) 引用(0) 浏览(13788)

Powered by emlog