如何获取喜马拉雅app音频数据?

作者:dong 发布于:2018-9-10 9:48 Monday

“今天你路过了谁,谁又丢失了你呢?”

《从你的全世界路过》的男主人公陈末,用温柔的声音解决女性遇到的困境治愈女性听众的时候,他接到了来自幺鸡的来电,幺鸡说她感到很孤独,陈末说:没有关系,我在这里陪着你。

陈末用“陪”字点出了深夜电台存在的意义。在电台逐渐被互联网、视频等媒体取代后的几年时间,反而通过“互联网+模式成了全新的存在,涌现出了十点读书、夜听、荔枝、喜马拉雅等多种不同的形态。但无论是何种模式,陪伴作为音频的主要功能一直被延续了下来,成为抚慰不同用户的共同媒介,并逐渐得到更多年轻用户的喜爱。

今天我们就以手机喜马拉雅FM app为例,探讨一下如何抓取app音频数据。

采集手机app,首先我们要准备fiddler按下图设置:

 

并使用cmd查看本电脑局域网IP,如下图:

 

电脑上面准备完成后,下面是手机上的设置,根据本地局域网IP以及fiddler端口号,设置手机代理:

 

设置好后,在手机浏览器中打开:http://192.168.0.5:8888,即本地IP+fiddler端口好,正常打开后,下载fiddler证书并安装。

以上准备工作完成后,即可打开喜马拉雅app,并选择有声小说中的任意一本小说,下面以木垒河有声小说为例:

1.点击打开小说


2.选择一个分节点击收听

 

3.我们现在找的是音频地址,一般音频是.m4a,在fiddler中搜索m4a,有好多网址符合查询要求,我们一一排除下,找到真实的音频地址如下:


4.这是其中一个音频的地址,我们根据这个地址搜索下,包含所有音频地址的前后代码:

 

找到了包含所有音频的地址以及前后代码,接下来,我们将地址写入采集器中进行采集,通过app看木垒河一共有79个音频,因此我们可以直接更改地址中pageSize为79,并点击起始页就是内容页:

 

标签设置如下:

  

采集结果示例:

 

在这个越长大越孤单的时代,陪伴式音频的需求会越来越得到年轻用户的认可,更多的年轻人会有陪伴的需求,更多的主播和公司会提供陪伴式的服务。

但无论怎样来说,音频都是一个很难成风口的行业,陪伴式音频又是其中的一部分,但正是因为这样,陪伴式的音频得以发展壮大,越来越多的用户得到治愈。我曾经问过一个朋友,你觉得音频的未来是什么,他告诉我说:“万物皆有声”,希望这一天早点到来。

那么火车采集器的未来呢?大数据行业现在正值风口浪尖,雷军曾说过一句话我觉得很适合来描述大数据行业的现状:“只要站在风口上,就连一只猪也能飞起来。”

所以我相信从事大数据的各位未来必定前程似锦,也相信火车采集器的未来光明可期。

 

发表评论:

Powered by emlog