如何获取喜马拉雅app音频数据?

作者:dong 发布于:2018-9-10 9:48 Monday

“今天你路过了谁,谁又丢失了你呢?”

《从你的全世界路过》的男主人公陈末,用温柔的声音解决女性遇到的困境治愈女性听众的时候,他接到了来自幺鸡的来电,幺鸡说她感到很孤独,陈末说:没有关系,我在这里陪着你。

陈末用“陪”字点出了深夜电台存在的意义。在电台逐渐被互联网、视频等媒体取代后的几年时间,反而通过“互联网+模式成了全新的存在,涌现出了十点读书、夜听、荔枝、喜马拉雅等多种不同的形态。但无论是何种模式,陪伴作为音频的主要功能一直被延续了下来,成为抚慰不同用户的共同媒介,并逐渐得到更多年轻用户的喜爱。

今天我们就以手机喜马拉雅FM app为例,探讨一下如何抓取app音频数据。

采集手机app,首先我们要准备fiddler按下图设置:

 

并使用cmd查看本电脑局域网IP,如下图:

 

电脑上面准备完成后,下面是手机上的设置,根据本地局域网IP以及fiddler端口号,设置手机代理:

 

设置好后,在手机浏览器中打开:http://192.168.0.5:8888,即本地IP+fiddler端口好,正常打开后,下载fiddler证书并安装。

以上准备工作完成后,即可打开喜马拉雅app,并选择有声小说中的任意一本小说,下面以木垒河有声小说为例:

1.点击打开小说


2.选择一个分节点击收听

 

3.我们现在找的是音频地址,一般音频是.m4a,在fiddler中搜索m4a,有好多网址符合查询要求,我们一一排除下,找到真实的音频地址如下:


4.这是其中一个音频的地址,我们根据这个地址搜索下,包含所有音频地址的前后代码:

 

找到了包含所有音频的地址以及前后代码,接下来,我们将地址写入采集器中进行采集,通过app看木垒河一共有79个音频,因此我们可以直接更改地址中pageSize为79,并点击起始页就是内容页:

 

标签设置如下:

  

采集结果示例:

 

在这个越长大越孤单的时代,陪伴式音频的需求会越来越得到年轻用户的认可,更多的年轻人会有陪伴的需求,更多的主播和公司会提供陪伴式的服务。

但无论怎样来说,音频都是一个很难成风口的行业,陪伴式音频又是其中的一部分,但正是因为这样,陪伴式的音频得以发展壮大,越来越多的用户得到治愈。我曾经问过一个朋友,你觉得音频的未来是什么,他告诉我说:“万物皆有声”,希望这一天早点到来。

那么火车采集器的未来呢?大数据行业现在正值风口浪尖,雷军曾说过一句话我觉得很适合来描述大数据行业的现状:“只要站在风口上,就连一只猪也能飞起来。”

所以我相信从事大数据的各位未来必定前程似锦,也相信火车采集器的未来光明可期。

 

评论(0) 引用(0) 浏览(6295)

火车采集器||采集电商网站网页源码中未显示的评论数据

作者:dong 发布于:2018-9-10 9:47 Monday

经常有朋友问小采,如何采集电商网站网页源码中不显示的评论数据,今天小采就教大家如何使用火车采集器采集京东的网页源码中看不到的数据。

需要用到的工具:fiddler抓包工具,火车采集器

采集网址:  京东网址

首先我们打开fiddler,本次使用的fiddler汉化版的,英文版的原理一样

然后我们打开对应的网站

这里面对应的商品评价

我们看此评价在源码中是否存在,复制下图的一些内容

此时这一页的数据我们在源码中没有找到对应的信息

我们开启fiddler刷新当前页面

此时会刷新出很多的请求信息,我们把fiddler关闭,用刚才在源码中查找的那一段文字在fiddler里面Ctrl+F查找一下

这里有突出信息说明要查找的信息在这个请求里面

 

可以看到在网络视图(对应英文版webview)里面有对应的一个信息,此时这个http请求就是我们想要的信息,这个源码就是实际评论的源码

 

我们将这个网址放进采集器里面测试采集一下

针对这个单一的网址进行测试,勾选循环匹配哦

 

再和浏览器打开页面对比一下

这里其实有图片,但是小采为了测试用html标签过滤掉了,此时获取的信息和浏览器的信息是一样的,没有做分页,分页可以通过抓取不同页面的数据包然后对比一下网址的区别,这样就可以采集到在源码中页面上未显示的评论数据了。

 

评论(0) 引用(0) 浏览(3235)

【教程】火车采集器获取58同城租房信息

作者:dong 发布于:2018-8-13 9:13 Monday

上文刚介绍了朋友少杰被老板吩咐了一个任务,采集58同城房产信息,但其实除了传统的复制粘贴之外,其实还有一种很简单好用的妙招,那就是用火车采集器采集58租房信息,今天小采就把这个方法分享给大家。

1. 打开  58同城合肥租房网址

 

2. 根据网址和源码制作采集规则

一、网址设置:

 

网址测试结果如下:

二、内容获取设置:

1. 前后截取:

2. 多页设置:

结果如下:

手机号码是通过手机网址获取的,可以从源码里找到。

3. 运行任务结果如下:

好啦,就是这样简单实用的操作,是不是很方便?

火车采集器不但可以为你省掉一整套繁琐复杂的复制粘贴流程,也能让你工作效率倍增,在老板面前脱颖而出。

并且如果你要自己租房的话,火车采集器也是能为你节省一大半网上看房时间的“租房神器”呢!

爱心小贴士

1.58同城的电话信息火车采集器能不能采集?
答:58同城电话现在分为两种,一种是直接显示在页面上面能够看到电话信息的,这种可以采集。

第二种是需要扫码才能看到电话信息,这种就不能采集(无法突破二维码扫码的限制)

2.58同城信息用火车采集器采集起来有什么限制?
答:58同城如果长时间采集的话,会封电脑IP,这种设置代理IP即可(代理IP可以从第三方平台购买)

3.火车采集器是不是输入58同城地址就能自动采集?
答:不能,火车采集器需要针对不同的栏目设置规则,因为每个栏目采集规则不同,只有针对不同栏目相对应的设置规则,才能精准采集

 

 

评论(0) 引用(0) 浏览(2861)

利用火车采集器如何让你“时薪”暴涨

作者:dong 发布于:2018-8-13 9:12 Monday

朋友少杰最近刚进了一家房产公司,老板交代给了他一项任务,让他去采集58同城的房产信息。

说实话,接到这个任务的时候少杰心里是一点准备也没有的,也并不认为这是一件很困难的事,毕竟就只是复制粘贴吗,一点技术性含量都没有的工作。

然而,很快,他就为他的轻视付出了代价
假设一个商品他需要1分钟时间搞定,以上作业全部完成大概需要500分钟,接近10个小时。

很多人在刚进入职场的时候会遇到这种事情,老员工或者老板把这种重复劳动又对成长毫无价值的工作扔给你做。

当你牺牲了周末陪女朋友逛街嬉戏的时间,然后一个一个将这些商品复制粘贴到表格里交给老板看过后,你以为有什么改变?不,老板看过了,就没有然后了。
因为这只是一件谁都能干的事而已,即使它也是一件繁琐到谁都不想干的事。

接近10个小时的重复性工作,压力真的会累到压垮你。负面效果非常多,可以说是挑战人体极限了。

不仅仅是心理视觉上的疲劳,某权威期刊的一份研究报告指出,"重复性压力伤害Repetitive Strain Injury)"的病患,是因为肉体过度劳累而造成的,而非心理压力导致的。过度劳累带来的不仅是心理疲劳,还有可能造成身体上无法逆转的伤害。

这种重复劳动做上10分钟,大多数人也就认了,但是做10小时,估计精神的疲惫需要很长时间才能恢复过来。

何况10小时可能还不够,事实上到了后期,1个条目1分钟的速度是几乎不可能实现的。

那么换个思路你能有什么办法呢?

在《绣春刀》中,主角的师兄周一围说过一句经典名言:这是我的手足兄弟至爱亲朋啊,要加钱。

敲重点:加钱!!!

很多事情,你之所以找不到人帮你做,无非就是,没加钱或者钱不够。

是的,没有什么是钱不能解决的问题。除了重复性的复制粘贴外,你还有一种方法能解决这个问题,那就是利用爬虫技术,但少杰说,他不会爬虫该怎么办?

于是我向他推荐了火车采集器——不需要会Python,无需码代码,便可采集全网信息的数据采集器。

以采集58同城泉州租房信息为例,入口网址为:58网站地址

设置好采集网址:

经过几步操作过后就能发现采集租房信息根本都不是事儿,而这仅仅只需您每天两块六毛钱的最低消费。

敢于豪赌博人生,深谙世道会做人。

我们可以想过一个问题,为什么老板不自己做这件事呢?

答案很简单,因为他的时间比你宝贵,所以他把重复劳动交给你来做。

那么这时候你有2个选择:

如果你还有手下,如法炮制,把这事情交给你的手下来做。

在公务员系统中,这种事情就经常发生。一层压一层,最后让小兵来完成局长应该完成的无聊/繁琐的工作。比如点一些无聊的组织规定的学习网页之类的工作,BOSS们一般是不会亲力亲为的。但是这样你就永远只是一个无能小兵,别提如何走上人生巅峰了。

很多人应该听过穷人和富人的故事,富人送给穷人一头牛帮他致富,穷人却在一次次的妥协中将牛卖了换成羊涮羊肉,把羊卖了炖鸡吃,到最后仍然一贫如洗。

很多穷人都有过梦想,甚至有过机遇,有过行动,但要坚持到底却很难,性格形成习惯,习惯决定成功一个成功的人应该学会利用时间,如何用最快的时间完成最多的工作。

火车采集器它不能带你走上人生巅峰,也不能帮你摆脱人生的困境,真正能带你走上巅峰的只有你自己经过长久考量下的深思熟虑,个人眼界的宽广才是决定你人生高度的决定因素。

最后,让小采打个广告哈,想要购买火车采集器的朋友,在官网下单记得报小采的名字哦!

 

 

评论(0) 引用(0) 浏览(2738)

超越Phantomjs的商业浏览器开发SDK

作者:小文 发布于:2018-8-1 17:45 Wednesday 分类:功能介绍

最低只要七行代码,执行一个完整的任务,超越Phantomjs的商业浏览器开发SDK了解一下,资料下载  。火车浏览器V7二次开发SDK(C#).zip

 

以下为相关截图:

 

点击查看原图

点击查看原图

点击查看原图

点击查看原图

点击查看原图

点击查看原图

 

评论(0) 引用(0) 浏览(2860)

Powered by emlog