抖音小视频采集,你爱的小姐姐信息都在这里!

作者:dong 发布于:2018-6-22 16:12 Friday

最近抖音有点火,自从内涵段子被永久封停过后,抖音似乎就进入了一个高速腾飞期。

即便是有着腾讯爸爸做后台的微视,也抵不过抖音15秒带来的惊人魔力。

既然抖音短视频热度这么高,今天我们就来看看俘虏了众多小哥哥小姐姐的抖音是如何进行数据采集的吧!

1.jpg

 

 

1. 通过分享视频网页源代码获取数据

所有互联网能看到的数据都是可以采集的,抖音肯定也不例外。

普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。

抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。分享后的网址为:

https://www.douyin.com/share/video/6564291888008924423(视频id号)。

2.jpg

 

我们右键视频页面查看其视频源码:

 

3.jpg 

从源码中,可以详细的获取视频作者和视频详情信息等。例如以下:

4.jpg

上述信息均可以从分享的视频链接源码里获取。

运行程序结果为:

5.jpg

 

 

源代码中我们可以很清楚的看到视频名称和作者的信息。

有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。包括作者,

视频详情,视频封面,视频地址,视频宽度,视频高度,视频ID,作者头像,PageUrl等一个视频的完整信息。

如下图所示,这是我采集到的部分视频数据。

6.jpg

 

查看该分享视频的url构造可以发现非常的简单,仅由www.douyin.com 、share 、video 和6564291888008924423四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。

在实际操作中,抖音对其视频的ID都做了加密处理,简单递增视频ID构造的URL视频显然是不可能成功地。

但基本在通过Fiddler抓包获取的抖音数据时,你抓取到的字段值和命名方式就能暴露出很多东西了。

例子如下:

 

基本信息


risk_infos: 

风险信息:

warn: false, 

警告:否

risk_sink: false 

风险下降:否(字面翻译)

label_top: { 

 头部标签:

url_list: 

链接列表(链接打开是“示范”的图片)

uri: 

 资源标识,类似url不用管

author_user_id: 

 作者ID

rate: 12, 

等级:12

create_time: 1517579506,

创建时间,时间戳格式

视频信息


video: 

视频

ratio: "720p",

比率

origin_cover: 

 原始封面

url_list: 

视频封面的地址

uri: 


play_addr: 

视频地址

url_list: 


uri: 


cover: 

视频封面

url_list: 


uri: 


height: 

视频高度

width: 

视频宽度

bit_rate: 

视频码率

bit_rate: 337070,

视频码率

gear_name: "normal",

不知道啥:普通

quality_type: 0

质量类型

download_addr: 

下载地址

url_list: 


uri: 


has_watermark: true,

是否有水印

duration: 

视频时长

play_addr_lowbr: 

低画质视频地址

url_list:


uri: 


dynamic_cover: 

动态封面

url_list:


uri: 


aweme_id: 

视频ID

video_labels: [],

视频标签

is_vr: false,

是否VR:否(字面翻译)

vr_type: 1,

VR类型:1

统计数据


statistics: 


play_count: 50855809,

播放数

aweme_id: 

视频ID

comment_count: 17579,

评论数

share_count: 155218,

分享数

digg_count: 682154

点赞数

作者信息


author:

作者

share_qrcode_uri: 

分享快速响应码

avatar_larger: 

大头像

url_list:


uri: 


enterprise_verify_reason:

企业认证

original_music_qrcode: null

原创音乐码:空

story_open: false,

故事打开:否

live_verify: 0,

直播权限:0

short_id:

短ID:

account_region: "",

账户区域

reflow_page_gid: 0,

回流页面(字面翻译)

avatar_thumb: 

应该是头像缩略图

uri:


is_binded_weibo: false,

是否绑定微博:否

is_verified: true,

是否认证:是

hide_search: false,

是否隐藏搜索:否

risk_flag: 0,

风险标签:0

with_commerce_entry: false,

是否商业化:否

school_name: "",

学校名称:

custom_verify: "",

自定义认证:

special_lock: 1,

特殊锁?

shield_comment_notice: 0,

屏蔽评论通知:0

hide_location: false,

隐藏位置信息:否

gender: 1,

性别:男

star_use_new_download: false,


school_poi_id: "",

学校POI序号

weibo_schema: "",

微博概要

uid: 

用户ID

bind_phone: "",

绑定手机号:

weibo_url: "",

微博地址

weibo_name: "",

微博账号

commerce_user_level: 0,

商业等级:0

create_time: 1511582912,

创建时间

verify_info: "",

认证信息

constellation: 3,

星座:双子

community_discipline_status:  0,

社区纪律地位:0(字面翻译)

has_register_notice: 1,

已有注册信息:1

need_recommend: 1,

需要推荐:1

shield_digg_notice: 0,

屏蔽点赞通知

update_before: 0,

是否更新过:0

verification_type: 1,

认证类型:1

room_id: 0,

房间ID:0(应该是直播房间号)

avatar_medium:

头像(中)

url_list:


uri: 


authority_status: 0,

权重:0(字面意思权威等级)

enterprise_verify: false,

企业验证:否

reflow_page_uid: 0,

回流页ID:0

birthday:  "1992-06-16",

生日

is_ad_fake: false,

是否广告伪造:否(字面翻译)

nickname:  "

昵称:

shield_follow_notice: 0,

屏蔽关注通知:0

original_music_cover: null,

原创音乐标识:空

follow_status: 0,

粉丝等级:0(字面翻译)

region: "CN",

国家:CN

school_type: 0,

学校类型:0

avatar_uri: 

头像标识地址

signature: "有没有爱",

签名:

weibo_verify: "",

微博认证:

unique_id: ""

特殊ID:

视频信息:


cmt_swt: false,

不知道啥意思

share_url: 

分享链接

is_ads: false,

是否广告:否

音乐信息


status: 1,

等级:1(字面翻译)

extra:  "{\"has_edited\": 0}",

附加信息:是否编辑:0

is_original: false,

是否原创:否

offline_desc: "",

离线描述:(字面翻译)

source_platform: 22,

资源平台:22

audio_track: 

音轨:

url_list: 

URL打开为音频波形图

uri: 


cover_large: 

音频封面

url_list: 


uri: 


duration: 34,

时长:34

id: 


cover_thumb: 

封面缩略图

url_list:


uri: 


cover_hd:

高清封面

url_list:


uri: 


user_count: 0,

用户账号:

title: "粉红色的回忆",

标题

play_url: 

播放地址

url_list:


uri: "5fc00003ab


effects_data: 

效果数据

url_list:


uri:


author: 

音乐作者:

mid: 


cover_medium: 

封面(中)

url_list: 


uri: 


id_str: 

不知道啥意思

schema_url: ""

概要地址

不知道啥分类:


bodydance_score: 0,

节奏分数:0(字面翻译)

is_hash_tag: 0,

是否哈希标签:0(字面翻译)

视频状态:


status: 


with_goods: false,

有商品:否

is_delete: false,

是否删除:否

private_status: 0,

私有状态:0(设为自己可见)

allow_comment: true,

允许评论:是

allow_share: true,

允许分享:是

is_private: false

是否私有:否

sort_label: "_",

分类标签:_

分享信息:    


share_info: 


share_weibo_desc:  "",

微博分享描述

share_title: “",

分享标题:

share_url: 

分享链接

share_desc:  "在抖音,记录美好生活"

分享描述

is_top: 0,

是否置顶:0(字面翻译)

aweme_type: 0,

视频类型:0

desc: "",

视频描述:

region: "",

位置信息:

is_relieve: false,

是否缓存:否(字面翻译)

text_extra: [],

额外文本:空(字面翻译)

user_digged: 0

作者点赞:0

 

具体情况我就不举例了,如果你对自己账号的以上信息感兴趣,你也可以下载教程脚本,自己尝试去做一下!



联系我们
客服QQ:800019423
客服电话:400-8757-060


软件购买:http://www.locoy.com/buy


评论(2) 引用(0) 浏览(47524)

【笑cry】采集世界杯微博网友评论, 那些你不知道的世界杯小故事

作者:dong 发布于:2018-6-22 15:45 Friday

4年一次的世界杯终于要进入倒计时了,从来不爱看球只爱看网友吐槽世界杯段子的我也终于要将罪恶之手伸向世界杯这只纯洁的“赤裸小羔羊了”。今天我们来采集一些有关于世界杯的有趣数据。

但在下手之前我们先看一下本届世界杯场外场内那些令我们瞠目结舌的”骚操作“

场内:
A组

小组赛首轮战罢,谁能想到,

现在最有冠军相的不是梅西的阿根廷,

不是J罗的哥伦比亚,也不是内马尔的巴西,

而是普京的俄罗斯

1.jpg

在一众传统豪强遭遇冷门之后,仅仅只有德国是输掉比赛的那一支豪强。并且是所有欧洲球队中唯一没有进球的球队。

毕竟,卫冕冠军小组赛被淘汰可是专业的。

2.jpg

场外:
B组

比女人更善变的是一个沉迷于世界杯赌球的“甲方爸爸”,偷师习得卖土耳其冰淇淋球小哥的独门手艺,没人比他更秀啦!

3.jpg

C罗身上最性感的东西是什么我不知道,但看这老兄的手,心里突然慌得一批,怎莫办!我也好想摸,是C罗啊!(此处省略万千渴望表情)

4.jpg

2018俄罗斯世界杯

咳咳咳,话题有点歪,我们是一款正经的大数据采集器,上面的心声绝对不是我内心真正的想法(见仁见智)。

今天我们要做的是采集新浪微博超话“#世界杯吐槽大会#”的网友评论数据,分析网友们最感兴趣的世界杯吐槽点在哪里。

下文是小采精心烹饪的采集教程,望签收。

1、先打开我们要采集的新浪微博的界面,搜索#世界杯吐槽大会#超级话题,点击登入输入用户名和密码

5.jpg

接着打开网页,点击登入加元素写值步骤来完成操作

6.jpg

2、用循环加条件判断来判断页面是否加载完成

7.png

3、做浏览器设置允许弹出新的标签页,来实现后面都评论页面的采集

9.png

4、用滚动条加单次取值来取出所有的发文内容

10.png

5、通过对网站的分析,评论有三种情况:

(1)无评论

(2)评论少,无需点入详情页去采集评论

(3)评论多,需要点入详情页采集评论

所以要写多个判断来,应对不同的情况

若评论多则判断是否有

若有则点击查看更多,然后进去内容详情,用滚动条操作加单次取值,取出评论

之后用标签页操作回到列表页

若评论少则直接单次取值所有评论

11.png

采集之后点击下一页然后清空计数器,采集下一页评论

6、用变量处理加变量转换 得到我们要处理的文本变量

12.png

7、之后用中文分词功能来获取世界杯期间微博的高频词,看网友们对世界杯感兴趣的关键词

13.png

得到结果

14.png

处理一下上表中数据我们就可以看到这样一张图

15.jpg

从图中我们可以看到,日本队的胜出在中国网民心中影响颇大,毕竟,国足是中国球迷心中永远的痛,网上甚至有这种言论;

16.png

与日本一起被人提起的还有强队哥伦比亚,人们都很叹息,哥伦比亚竟然惜败日本,这只能说的确是时运不济了。

最令人意外的是本届世界杯“普京表情包”在中国网络上的病毒式走红,事情的起因是这样的。

本届世界杯的第一场比赛:

沙特阿拉伯 vs 俄罗斯。

赛前,众多球迷参与预测本场比赛的比分,

预测结果以2:0、2:1或3:1居多,

可谁也没想到,

沙特竟然被俄罗斯踢了个5:0… 

17.gif

先不说沙特球员心理是如何崩溃的,来说说两国领导。坐在看台上的两位大人物的戏,

绝对比赛场上的比赛还要精彩!

在图片左边的,就是沙特的王储,

坐在中间位置的,是国际足联主席因凡蒂诺,

在图片最右边的,是大名鼎鼎的俄罗斯总统普京。

你以为这三个人会老老实实看球吗?!

最终,

这场会面变成了普京摊手表演集锦…

准备好了吗?3,2,1,Action。

在俄罗斯1:0领先沙特时,

普京总统双手一摊,

随后和沙特王储握手。

18.jpg

这时他会说什么呢?

不要意思,我们先进一个热热场…

夹在中间的因凡蒂诺也跟着普京一起摊了摊手,

气氛略显尴尬…

而坐在一旁的沙特王储则表现的还算淡定,

毕竟才进一个球,还有翻盘的机会。

不久之后,俄罗斯就3:0领先沙特了,

这次因凡蒂诺反而先摊手表示,

不关我的事啊…

19.jpg

有网友表示,足联主席内心戏应该是这样的:

等到了5:0的时候,沙特王储脸上笑容逐渐消失…

普京再度摊开大手,

因凡蒂诺夹在中间根本不知道说什么好…

20.jpg

比赛结束后,

沙特王储和普京总统紧紧地拥抱了一下,

友谊第一,比赛第二,

有这样的风度也不愧为一国之首。

就是不知道明年俄罗斯油价是不是又要涨了…

21.jpg

评论(0) 引用(0) 浏览(5644)

Powered by emlog