【笑cry】采集世界杯微博网友评论, 那些你不知道的世界杯小故事

作者:dong 发布于:2018-6-22 15:45 Friday

4年一次的世界杯终于要进入倒计时了,从来不爱看球只爱看网友吐槽世界杯段子的我也终于要将罪恶之手伸向世界杯这只纯洁的“赤裸小羔羊了”。今天我们来采集一些有关于世界杯的有趣数据。

但在下手之前我们先看一下本届世界杯场外场内那些令我们瞠目结舌的”骚操作“

场内:
A组

小组赛首轮战罢,谁能想到,

现在最有冠军相的不是梅西的阿根廷,

不是J罗的哥伦比亚,也不是内马尔的巴西,

而是普京的俄罗斯

1.jpg

在一众传统豪强遭遇冷门之后,仅仅只有德国是输掉比赛的那一支豪强。并且是所有欧洲球队中唯一没有进球的球队。

毕竟,卫冕冠军小组赛被淘汰可是专业的。

2.jpg

场外:
B组

比女人更善变的是一个沉迷于世界杯赌球的“甲方爸爸”,偷师习得卖土耳其冰淇淋球小哥的独门手艺,没人比他更秀啦!

3.jpg

C罗身上最性感的东西是什么我不知道,但看这老兄的手,心里突然慌得一批,怎莫办!我也好想摸,是C罗啊!(此处省略万千渴望表情)

4.jpg

2018俄罗斯世界杯

咳咳咳,话题有点歪,我们是一款正经的大数据采集器,上面的心声绝对不是我内心真正的想法(见仁见智)。

今天我们要做的是采集新浪微博超话“#世界杯吐槽大会#”的网友评论数据,分析网友们最感兴趣的世界杯吐槽点在哪里。

下文是小采精心烹饪的采集教程,望签收。

1、先打开我们要采集的新浪微博的界面,搜索#世界杯吐槽大会#超级话题,点击登入输入用户名和密码

5.jpg

接着打开网页,点击登入加元素写值步骤来完成操作

6.jpg

2、用循环加条件判断来判断页面是否加载完成

7.png

3、做浏览器设置允许弹出新的标签页,来实现后面都评论页面的采集

9.png

4、用滚动条加单次取值来取出所有的发文内容

10.png

5、通过对网站的分析,评论有三种情况:

(1)无评论

(2)评论少,无需点入详情页去采集评论

(3)评论多,需要点入详情页采集评论

所以要写多个判断来,应对不同的情况

若评论多则判断是否有

若有则点击查看更多,然后进去内容详情,用滚动条操作加单次取值,取出评论

之后用标签页操作回到列表页

若评论少则直接单次取值所有评论

11.png

采集之后点击下一页然后清空计数器,采集下一页评论

6、用变量处理加变量转换 得到我们要处理的文本变量

12.png

7、之后用中文分词功能来获取世界杯期间微博的高频词,看网友们对世界杯感兴趣的关键词

13.png

得到结果

14.png

处理一下上表中数据我们就可以看到这样一张图

15.jpg

从图中我们可以看到,日本队的胜出在中国网民心中影响颇大,毕竟,国足是中国球迷心中永远的痛,网上甚至有这种言论;

16.png

与日本一起被人提起的还有强队哥伦比亚,人们都很叹息,哥伦比亚竟然惜败日本,这只能说的确是时运不济了。

最令人意外的是本届世界杯“普京表情包”在中国网络上的病毒式走红,事情的起因是这样的。

本届世界杯的第一场比赛:

沙特阿拉伯 vs 俄罗斯。

赛前,众多球迷参与预测本场比赛的比分,

预测结果以2:0、2:1或3:1居多,

可谁也没想到,

沙特竟然被俄罗斯踢了个5:0… 

17.gif

先不说沙特球员心理是如何崩溃的,来说说两国领导。坐在看台上的两位大人物的戏,

绝对比赛场上的比赛还要精彩!

在图片左边的,就是沙特的王储,

坐在中间位置的,是国际足联主席因凡蒂诺,

在图片最右边的,是大名鼎鼎的俄罗斯总统普京。

你以为这三个人会老老实实看球吗?!

最终,

这场会面变成了普京摊手表演集锦…

准备好了吗?3,2,1,Action。

在俄罗斯1:0领先沙特时,

普京总统双手一摊,

随后和沙特王储握手。

18.jpg

这时他会说什么呢?

不要意思,我们先进一个热热场…

夹在中间的因凡蒂诺也跟着普京一起摊了摊手,

气氛略显尴尬…

而坐在一旁的沙特王储则表现的还算淡定,

毕竟才进一个球,还有翻盘的机会。

不久之后,俄罗斯就3:0领先沙特了,

这次因凡蒂诺反而先摊手表示,

不关我的事啊…

19.jpg

有网友表示,足联主席内心戏应该是这样的:

等到了5:0的时候,沙特王储脸上笑容逐渐消失…

普京再度摊开大手,

因凡蒂诺夹在中间根本不知道说什么好…

20.jpg

比赛结束后,

沙特王储和普京总统紧紧地拥抱了一下,

友谊第一,比赛第二,

有这样的风度也不愧为一国之首。

就是不知道明年俄罗斯油价是不是又要涨了…

21.jpg

发表评论:

Powered by emlog