【教程】如何用火车浏览器采集b站弹幕评论的数据

作者:dong 发布于:2018-4-2 17:52 Monday

在上一期小采向大家介绍了花瓣网瀑布流数据采集思路详解,不知道大家回去有没有自己动手操作一遍呢?如果练习了就好好阅读今天这篇教程吧。

之前曾经有人有人在qq群里提问如何采集b站的弹幕,恰逢上一周b站从美国纳斯达克交易所敲钟上市,所以我们特意缠着技术推出了一期b站特刊。

b站的弹幕和鬼畜文化陪伴了国人这么多年走来,早已经成了”中二病“爱好者心中不可分割的一部分,今天就让我们同样可爱的小采来介绍一下如何使用火车浏览器来采集b站的弹幕评论数据吧!

1

如何采集B站的弹幕,看下面这个链接:

https://www.bilibili.com/video/av21038666/?spm_id_from=333.334.chief_recommend.20

以这一个视频地址作为例子,下面介绍下编写的思路以及方法。

编写重点以及难点:

(1) http请求用法,教程参考:

http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=231&highlight=http

(2)Js转换时间戳用法,教程参考:http://help.locoyposter.com/index.html#javascript

2

编写过程,这里介绍下编写过程中的重点步骤,一些基本步骤的使用就请参考视频学习

(1)打开需要采集的页面,然后使用fiddler抓包分析需要采集的评论在哪个请求中,找到对应请求之后将网址以及请求头信息复制放在火车浏览器步骤中:

设置好后,观察提取到的源码,分析需要采集数据的前后分割字符,使用循环提取步骤将发布时间以及发布内容同时提取到list变量中,以特殊间隔符分割开来,以便后续对两个字段分别进行处理

提取好后,观察提取到的数据,我们提取的时间其实一串时间戳,因此需要使用对应的代码来将时间戳转换为时间,具体代码如图,插一句,如果有一些功能我们火车浏览器无法实现,可以通过js,C#,python等插件来实现一些扩展功能。

然后按照自己需要的模板,将采集的数据保存即可,示例中提供的是将数据保存在txt,火车浏览器还支持保存在execl以及数据库中

3

示例提供的仅仅是一个B站视频弹幕的采集,如果要实现更多视频弹幕的采集,修改下脚本的逻辑规则即可手到擒来。

好了,今天的教程就到这了,有什么问题还没弄清楚的同学可在后台询问客服,或通过阅读原文进入我们火车采集器的官方网站,向在线客服即时咨询。

 

评论(0) 引用(0) 浏览(6960)

花瓣网—瀑布流数据采集思路详解

作者:dong 发布于:2018-4-2 17:48 Monday

上一期我们讲了如何利用火车采集器采集手机app中的数据信息,小伙伴们不知道看完之后有没有自己手操一遍呢?小采在后台整理留言发现,很多采友都对网站瀑布流数据采集的思路不甚了解,所以今天我们就向大家介绍一下关于网站瀑布流数据的采集思路吧。

1



瀑布流,又称瀑布流式布局。是比较流行的一种网站页面布局。

视觉表现为参差不齐的多栏布局,随着页面滚动条向下滚动,这种布局还会不断加载数据块并附加至当前尾部。

用户一眼扫过的快速阅读模式可以在短时间内获得更多的信息量,而瀑布流里懒加载模式又避免了用户鼠标点击的翻页操作。

错落有致,定宽而不定高的设计让页面区别于传统的矩阵式图片布局模式,巧妙的利用视觉层级,视线的任意流动又缓解了视觉疲劳,同时给人以不拘一格的感觉。

切中年轻一族的个性化心理。所以这种页面布局在现今饱受欢迎。

那么如何采集瀑布流数据呢?

今天我们以花瓣网为例,向大家解说一下

花瓣网—瀑布流数据采集思路

2



1. 拿到网页后,分析网页的形式,得出网页为瀑布流形式,需要通过FIDDLER抓包获取真实地址

HTTP://HUABAN.COM/EXPLORE/UISHUJU/?JF22V0AV&MAX=1356497171&LIMIT=200&WFL=1

修改下LIMIT参数为200,这样采集器可以获取200个列表页。

3



2. 编写网址采集规则

4



3. 获取列表页后,设置内容采集规则

图片采集用到了商业版的功能,内容添加前后缀。

注意事项:这个网页使用瀑布流形式,需要抓包获取真实地址

FIDDLER抓包教程HTTP://FAQ.LOCOY.COM/Q-755.HTML

抓包工具小伙伴们可以自行百度下载安装,操作很简单。

好了,不知道小伙伴们有没有看懂呢?不管会不会,回去点开火车采集器先跟着教程做一遍吧。实际操作之后,你就会发现原来瀑布数据采集并没有想象中的那么难。

 

 

标签: 瀑布流

评论(0) 引用(0) 浏览(7017)

Powered by emlog