【笑cry】采集世界杯微博网友评论, 那些你不知道的世界杯小故事
作者:dong 发布于:2018-6-22 15:45 Friday
4年一次的世界杯终于要进入倒计时了,从来不爱看球只爱看网友吐槽世界杯段子的我也终于要将罪恶之手伸向世界杯这只纯洁的“赤裸小羔羊了”。今天我们来采集一些有关于世界杯的有趣数据。
但在下手之前我们先看一下本届世界杯场外场内那些令我们瞠目结舌的”骚操作“。
小组赛首轮战罢,谁能想到,
现在最有冠军相的不是梅西的阿根廷,
不是J罗的哥伦比亚,也不是内马尔的巴西,
而是普京的俄罗斯
在一众传统豪强遭遇冷门之后,仅仅只有德国是输掉比赛的那一支豪强。并且是所有欧洲球队中唯一没有进球的球队。
毕竟,卫冕冠军小组赛被淘汰可是专业的。
比女人更善变的是一个沉迷于世界杯赌球的“甲方爸爸”,偷师习得卖土耳其冰淇淋球小哥的独门手艺,没人比他更秀啦!
C罗身上最性感的东西是什么我不知道,但看这老兄的手,心里突然慌得一批,怎莫办!我也好想摸,是C罗啊!(此处省略万千渴望表情)
2018俄罗斯世界杯
咳咳咳,话题有点歪,我们是一款正经的大数据采集器,上面的心声绝对不是我内心真正的想法(见仁见智)。
今天我们要做的是采集新浪微博超话“#世界杯吐槽大会#”的网友评论数据,分析网友们最感兴趣的世界杯吐槽点在哪里。
1、先打开我们要采集的新浪微博的界面,搜索#世界杯吐槽大会#超级话题,点击登入输入用户名和密码
接着打开网页,点击登入加元素写值步骤来完成操作
2、用循环加条件判断来判断页面是否加载完成
3、做浏览器设置允许弹出新的标签页,来实现后面都评论页面的采集
4、用滚动条加单次取值来取出所有的发文内容
5、通过对网站的分析,评论有三种情况:
(1)无评论
(2)评论少,无需点入详情页去采集评论
(3)评论多,需要点入详情页采集评论
所以要写多个判断来,应对不同的情况
若评论多则判断是否有
若有则点击查看更多,然后进去内容详情,用滚动条操作加单次取值,取出评论
之后用标签页操作回到列表页
若评论少则直接单次取值所有评论
采集之后点击下一页然后清空计数器,采集下一页评论
6、用变量处理加变量转换 得到我们要处理的文本变量
7、之后用中文分词功能来获取世界杯期间微博的高频词,看网友们对世界杯感兴趣的关键词
得到结果
处理一下上表中数据我们就可以看到这样一张图
从图中我们可以看到,日本队的胜出在中国网民心中影响颇大,毕竟,国足是中国球迷心中永远的痛,网上甚至有这种言论;
与日本一起被人提起的还有强队哥伦比亚,人们都很叹息,哥伦比亚竟然惜败日本,这只能说的确是时运不济了。
最令人意外的是本届世界杯“普京表情包”在中国网络上的病毒式走红,事情的起因是这样的。
本届世界杯的第一场比赛:
沙特阿拉伯 vs 俄罗斯。
赛前,众多球迷参与预测本场比赛的比分,
预测结果以2:0、2:1或3:1居多,
可谁也没想到,
沙特竟然被俄罗斯踢了个5:0…
先不说沙特球员心理是如何崩溃的,来说说两国领导。坐在看台上的两位大人物的戏,
绝对比赛场上的比赛还要精彩!
在图片左边的,就是沙特的王储,
坐在中间位置的,是国际足联主席因凡蒂诺,
在图片最右边的,是大名鼎鼎的俄罗斯总统普京。
你以为这三个人会老老实实看球吗?!
最终,
这场会面变成了普京摊手表演集锦…
准备好了吗?3,2,1,Action。
在俄罗斯1:0领先沙特时,
普京总统双手一摊,
随后和沙特王储握手。
这时他会说什么呢?
不要意思,我们先进一个热热场…
夹在中间的因凡蒂诺也跟着普京一起摊了摊手,
气氛略显尴尬…
而坐在一旁的沙特王储则表现的还算淡定,
毕竟才进一个球,还有翻盘的机会。
不久之后,俄罗斯就3:0领先沙特了,
这次因凡蒂诺反而先摊手表示,
不关我的事啊…
有网友表示,足联主席内心戏应该是这样的:
等到了5:0的时候,沙特王储脸上笑容逐渐消失…
普京再度摊开大手,
因凡蒂诺夹在中间根本不知道说什么好…
比赛结束后,
沙特王储和普京总统紧紧地拥抱了一下,
友谊第一,比赛第二,
有这样的风度也不愧为一国之首。
就是不知道明年俄罗斯油价是不是又要涨了…
合肥乐维信息技术有限公司2018年端午节放假通知
作者:dong 发布于:2018-6-15 12:57 Friday
尊敬的合作伙伴、用户:
根据国务院办公厅2018年节假日安排精神,现将我司2018年“端午”放假安排通知如下:
1. 2018年6月16日(星期六)、6月17日(星期日)、6月18日(端午节,星期一)放假三天,2018年6月19日(星期二)正常上班。
2. 节假期间,用户有任何疑问均可给客服留言、提交售后工单或在论坛中进行咨询,我们上线后即会为您及时处理,乐维竭诚为您服务!
节日期间提醒大家要注意出行安全,祝大家端午安康,阖家团圆。
合肥乐维信息技术有限公司
2018年6月15日
合肥乐维信息技术有限公司携手上海工程技术大学 共建数据获取与可视化联合实验室
作者:dong 发布于:2018-6-12 18:15 Tuesday
2018年6月11日下午,合肥乐维信息技术有限公司-上海工程技术大学共建“数据获取与可视化联合实验室”合作签约仪式在合肥乐维信息技术有限公司举行,上海工程技术大学电子电气工程学院计算机系副主任黄勃、讲师俞雷与带领的研究生团队参与此次会议,合肥乐维信息技术有限公司总经理李进斌先生、副总经理汶锐权、商务部主管徐小明代表乐维出席仪式并分别致辞。
此次共建为实现“企校合作,产学研究紧密结合”,打造“国内一流、国际领先”的大数据挖掘技术研发、应用可视化和产业化基地,为全面提升合作双方的行业影响力和核心竞争力奠定了良好的开端。
据了解,“数据获取与可视化联合实验室”将在合肥乐维信息技术有限公司和上海工程技术大学电子电气工程学院分别挂牌成立。
双方强强联合,充分发挥各自行业领先优势,聚焦大数据领域、开展教育科研、人才培养和产品研发等多方面的合作。
此次建立联合实验室的目标是在互利互惠的基础上,重点突出数据信息化、智能化和可视化研究及应用实践。上海工程技术大学将申报开设全国首批大数据专业招生,将在大数据专业人才培养,大数据相关项目开展深入合作。
会后合作双方在公司进行合影,上海工程技术大学计算机系副主任黄勃积极肯定了校企“合作共赢”的理念,有利于加强产学研合作,感谢合肥乐维信息技术有限公司为电子电气工程学院所做的支持,希望“数据获取与可视化联合实验室”能依托高校的科研优势和乐维的数据挖掘技术,做好对大数据研究和应用的技术支撑,为大数据产业的发展壮大做出更大贡献。
两块六毛钱你能买到什么?
作者:dong 发布于:2018-5-17 18:14 Thursday
在广州3元钱你或许能买到一瓶不加冰的可乐
在上海3元钱以内你能够坐6公里,大约2-3站路
在北京,3元钱你换不来一个加蛋的煎饼果子
然而在乐维,仅仅只需3元不到@全体采友
最低只要两块六毛钱
你就能拥有一款神奇的大数据采集工具
火车采集器
火车采集器,一款为你省钱的网络数据采集工具!
吃
我们来算一笔帐,正常人每天早餐大概花多少钱?
一个正常男性每天的早餐费大约不超过10元。
也就是说相当于节省一顿早餐的饭钱,你就可以买到长达3天的火车采集器使用权。
穿
以淘宝官网来定,我任意点开一间店铺找到一件商品。
可以看到这件男装现在售价89元,而这仅仅相当于约30天基础版火车采集器使用权的售价,你还在等什么?
住
同理,打开百度,随意选择合肥市内一家酒店官网价格目录。
我们可以很清楚的看到以上的价格清单,按最低价格起144元房费起算。也就是说你每住一晚快捷酒店所花费用就足够你使用48天火车采集器了。
行
合肥夏季公交车开空调2元钱一次,来回4元。
上海地铁3元大概能坐6公里,6公里至16公里4元钱。
公共出行交通方式的价格最低消费大约3元起,相当于购买火车采集器一天使用权的价格。
你每走6公里路,就可以消耗500卡路里的热量,还能够省下购买火车器一天使用权的费用。
坚持一年,你便可以永久拥有一款属于你自己的火车采集。(冰果,发现健身省钱新套路!)
打开猪八戒网,我们点进去看看,搜索大数据采集关键字
小采截了四页图,显而易见,有关大数据采集的服务看上去就价格不菲。
而火车采集器每天最低只需两块六,最豪华的组合套餐也只需七块三毛钱你就可以买到,可以说是很良心的价格了。
不仅如此,我们再看看学好大数据采集,在人才招聘市场上的薪资情况:
火车采集器不只是一款简单的数据采集软件,它更是你学好大数据采集基础的一块敲门砖!
学好火车采集,不仅能帮你省下一大笔钱,更重要的是它对你的职场生涯也有很大助益,能帮助你以超人一等的工作效率完成任务。
一份赚钱的职业,从学会火车采集开始
大数据采集第一划算秘籍
火车采集省时省力又省钱
苦口婆心帮你省钱的小采敬上!
ps:软件付费一次,永久免费使用,并赠送一年技术服务年限,服务年限内免费升级。老用户推荐更可享受9折优惠,详情可在线咨询火车采集客服MM(记得要注明是从火车采集官方公众号来的哦)。
520,火车采集带你探秘偶像胡歌的秘密世界
作者:dong 发布于:2018-5-17 17:22 Thursday
又到了一年一度的表白日
周末就是520了
害羞的我
把自己的心声
藏在文章中
如果恰好你也看见
如果你也恰好喜欢我
那么......
你还是没对象
不过没对象也没关系,毕竟小采是有偶像的人。
520别人都在谈对象,那小采就献丑一番
让小采带领大家探秘一下偶像胡歌的秘密世界
(是不是转折太快了?毕竟我也是一篇教程文案啊~)
首先我们一定要在脚本中添加微博的用户名密码这样脚本才能正常运行,可以直接文本输入也可添加变量,如下图:
然后打开新浪搜索胡歌的微博主界面
注意如遇到浏览器内下拉瀑布流无反应的情况,建议多刷新一下页面或者重新打开页面
用元素写值加悬浮框进行账号登录,否则采集的时候会弹框
然后进行循环操作,这里以循环20次为例,循环提取胡歌发布的文字内容信息
因为有瀑布流格式,这里用滚动条设置,最好选择滚动行数,这样下面的东西才有可能加载完全
接下来提取内容保存到list变量,然后点击下一页,我们就得到了想要的内容
小采这么辛苦的爬取老大的微博,拿到胡歌所有微博的数据,当然不是这么简单就完事了哦!
现在我们就抓取到的数据来做一个简单的分析:
首先我们看看,胡歌最喜欢@哪些人(这里去掉了@胡歌)
除了@他自己,他最喜欢@的人就是:唐嫣、刘诗诗、古月哥欠、胡佳、蒋劲夫、林更新。这些都是圈内的好朋友,唐嫣、刘诗诗可都是名花有主了,胡歌、蒋劲夫还都是单身汉,至于林更新,和素颜女神王丽坤的恋情也一直很引人瞩目。
继续说胡歌,下图是胡歌最喜欢转发的人:
除了胡歌自己,有蔡艺侬(上海唐人电影制作有限公司总裁)、莎朗ss、扎西顿珠、藤井树小姐(资深影评人)、袁弘,其他比较熟悉面孔还有唐嫣、侯洪亮、刘诗诗。
其中有一个人“莎朗ss”,6万多粉丝,但是同时有唐嫣、胡歌、刘诗诗都在关注。这个人又是谁呢?
胡歌注册微博的时间是:2009-08-28,在接下来的一年中,胡歌发了916条微博,平局每天发2.5条微博,而在2016年,3天才发一条,有数据表示,胡歌2016年代言30个广告,有小红书、sony、光明畅优、猎聘网、美孚英语等,名副其实的广告胡。
而到去年9月19日,胡歌也才发了44条,越来越少了。
胡歌代言过的广告
在2017中国名人收入排行榜上,胡歌排在第10位,比杨幂还高。
2016年胡歌一部戏也没拍,光靠广告就挣了1.3亿吗?
然后我们来对提取到的内容做个分词,看一下胡歌的微博中出现最密集的十大关键词是什么:
由于这次使用的插件是使用文本型变量,需要变量转换一下
这里我们调用外部插件选择中文分词,只找前十个高频词,每个词之间用逗号隔开。
接下来就是保存该文本变量看下效果了
可以很清楚看到伪装者,猎场,等电视剧,视频相关的名词出现较多,上海是胡歌的家乡,那么阿拉是什么呢?
如果你也有在追的爱豆,有兴趣的朋友可以自己试着操作一下,脚本我就放在下方阅读原文里了,大家可以自行下载。
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。