【教程】知乎采集规则分享

作者:dong 发布于:2018-9-19 10:39 Wednesday

苹果举办了Apple 2018秋季发布会

史上最贵的iPhone横空出世

售价高达12799元!

吓得小采

赶紧摸了摸肾还在不?

微信图片_20180919102351.jpg

其实么,有时候做个吃瓜群众挺好的

说到吃瓜群众就不得不谈谈大知了

今天我们就来探讨一下

如何采集知乎群众对“iPhone”的看法吧!

微信图片_20180919102458.jpg


第一步:在浏览器中打开知乎网站,然后登录知乎账号,登录后打开fiddler用于抓包,做好上述准备工作后。搜索你感兴趣的关键词,这次我们使用‘iphone’ 作为关键词,fiddler进行抓包。因为知乎是瀑布流形式的下一页,因此,我们再往下拖动瀑布流,抓取更多页的列表页。

图片1.png 

抓取数据如上图


第二步:接下来我们要分析,列表页地址在哪一个请求里面,找第一页的网址,然后在fiddler中进行搜索。找到包含地址的网址,然后记录下来。接下来找第二页中的网址,然后在fiddler中分析,

图片2.png 

可以看到我记录的网址分布规律:

图片3.png 

第一页地址,跟第二页第三页的格式分配规律不同,然后分析可以看到第二页第三页中变化的参数是offset,我们改变offset的值为零,可以看到源码中是有第一页中的内容的,所以我们用这个地址作为第一页的地址,然后再分析内容页地址。

知乎有两种类型的网页,我们取这种类型的网页:

图片4.png 

通过分析源码得到列表页提取规则如下:

图片5.png 


第三步:在内容页源码中找所需字段的前后代码,以内容字段的前后分析字段示例:

采集页面:

图片6.png 

源码示例:

图片7.png 

采集器设置:

图片8.png 

其余字段分析原理一致,不做赘述。

采集结果如下:

图片9.png 

此次编写需注意:

1. fiddler的熟练使用,可以参考教程:http://faq.locoy.com/q-1129.html


评论(0) 引用(0) 浏览(474)

火车采集器:关于近期有人冒充我司名义行骗的严正声明

作者:dong 发布于:2018-9-10 9:49 Monday

关于近期有人冒充我司名义行骗的严正声明

 

近期,有人冒充我司名义,从事行骗活动,此行为严重损害了我司品牌和客户利益。为避免客户受骗,维护公司合法权益,现严正声明:

 

1. 我司官方客服QQ800019423,联系电话0551-62864156,官方网站www.locoy.com,微信公众号火车采集器(微信号locoyplatform),请通过以上联系方式和我们联系以及在官方网站上进行购买支付交易。

 

2. 我司从未授权任何人或是公司代理销售我司软件产品,也不为任何人或公司的交易做任何担保。用户和第三方进行数据采集交易,请勿轻信夸大的承诺。

 

3、郑重警告正在冒用我司名义进行销售及其他活动的任何个人或组织,立即停止此类非法行为。对于损害我司合法权益的行为,我司保留追究诉诸法律的权利。

 

特此声明

合肥乐维信息技术有限公司

2018910

评论(0) 引用(0) 浏览(209)

数据驱动社群运营,怎样科学找到你的群聊kol

作者:dong 发布于:2018-9-10 9:49 Monday

前些天看知乎,看到有人讨论kol,如下图:

 

小采想就kol跟大家来聊一聊,为什么你手机里曾经加入过的好多群聊,最后都无声无息的死掉了?

总结了一下群聊死掉的原因,我得出两个结论:

1、群里没有KOL,也就是没有人制造话题,活跃群氛围;

2、群聊定位不明确,运营者不知道大家喜欢聊什么。

我就以公司最近拉的“火车头YY培训交流群”为例子吧:

这个群是我们最近新拉的一个直播培训交流群,目的是方便直播培训活动的进行and为大家提供一个交流场所。

我把群里的聊天记录以txt文本形式都导了出来做了一个简单的分析,如图:

 

看上去很杂乱,这样的数据显然是不能直接用的,所以把数据导入excel表格。

但是直接导入excel表格的话你只会得到一堆无序的数据,这不是我们想要的。

因为如果你把它直接导入进Excel,会出现很多串行的情况,群消息的文本会有换行的内容。

所以这肯定是要处理的,并且会有两个比较严重的问题:

1. 换行后是时间的保留下,其他类型的换行全部去掉,要不然导入Excel会出现串行的情况;

2. TXT中字段之间的间距不一致,需要间距一样或者用相同的字符分开才能导入进Excel里。

TXT不支持通配符,所以需要放到Word中处理。复制进Word后,把所有的“^p2018”(通配符^p代表回车或者换行符)都替换成“####”保存下来,然后把其他剩余的“^p”全部删掉。然后再把####替换回“^p2018”。这样第一步完成。

这时你就得到了这样的数据,如图所示:

 

把这些数据导入excel表格,像这样:

 

再进行分列操作,具体如图:

分列操作
/
四步骤

经过一系列的操作,最后你能得到这样一张结构化的表:

 

前面有些地方会有替换处理不干净的,使用筛选功能,把串行的调整一下这样就完成了。

做下词云就能得到:

  

通过上面的操作,我们对这个群有了更深刻的了解,前面提到的两个问题,也有了解决办法。

对小采来说,还有一个收获:

我通过分析积极参与群聊的人,找到我群里的KOL,维护好他们就相当于维护好了我的社群。

词云图就无需过多解释了,高频词就是群成员关注的话题。

有一个地方提一下,群聊消息里面,有“@XXXX”这种内容,XXX是群成员的昵称。

如果你的词云图里某个成员的昵称出现了,那你要把这个人好好供起来了,他很大概率是群里最受欢迎的对象。

emmm,以上就是小采所采集的数据得到的结果,你也可以去操作一下,去找到独属于你群聊的kol!

 

评论(0) 引用(0) 浏览(297)

如何获取喜马拉雅app音频数据?

作者:dong 发布于:2018-9-10 9:48 Monday

“今天你路过了谁,谁又丢失了你呢?”

《从你的全世界路过》的男主人公陈末,用温柔的声音解决女性遇到的困境治愈女性听众的时候,他接到了来自幺鸡的来电,幺鸡说她感到很孤独,陈末说:没有关系,我在这里陪着你。

陈末用“陪”字点出了深夜电台存在的意义。在电台逐渐被互联网、视频等媒体取代后的几年时间,反而通过“互联网+模式成了全新的存在,涌现出了十点读书、夜听、荔枝、喜马拉雅等多种不同的形态。但无论是何种模式,陪伴作为音频的主要功能一直被延续了下来,成为抚慰不同用户的共同媒介,并逐渐得到更多年轻用户的喜爱。

今天我们就以手机喜马拉雅FM app为例,探讨一下如何抓取app音频数据。

采集手机app,首先我们要准备fiddler按下图设置:

 

并使用cmd查看本电脑局域网IP,如下图:

 

电脑上面准备完成后,下面是手机上的设置,根据本地局域网IP以及fiddler端口号,设置手机代理:

 

设置好后,在手机浏览器中打开:http://192.168.0.5:8888,即本地IP+fiddler端口好,正常打开后,下载fiddler证书并安装。

以上准备工作完成后,即可打开喜马拉雅app,并选择有声小说中的任意一本小说,下面以木垒河有声小说为例:

1.点击打开小说


2.选择一个分节点击收听

 

3.我们现在找的是音频地址,一般音频是.m4a,在fiddler中搜索m4a,有好多网址符合查询要求,我们一一排除下,找到真实的音频地址如下:


4.这是其中一个音频的地址,我们根据这个地址搜索下,包含所有音频地址的前后代码:

 

找到了包含所有音频的地址以及前后代码,接下来,我们将地址写入采集器中进行采集,通过app看木垒河一共有79个音频,因此我们可以直接更改地址中pageSize为79,并点击起始页就是内容页:

 

标签设置如下:

  

采集结果示例:

 

在这个越长大越孤单的时代,陪伴式音频的需求会越来越得到年轻用户的认可,更多的年轻人会有陪伴的需求,更多的主播和公司会提供陪伴式的服务。

但无论怎样来说,音频都是一个很难成风口的行业,陪伴式音频又是其中的一部分,但正是因为这样,陪伴式的音频得以发展壮大,越来越多的用户得到治愈。我曾经问过一个朋友,你觉得音频的未来是什么,他告诉我说:“万物皆有声”,希望这一天早点到来。

那么火车采集器的未来呢?大数据行业现在正值风口浪尖,雷军曾说过一句话我觉得很适合来描述大数据行业的现状:“只要站在风口上,就连一只猪也能飞起来。”

所以我相信从事大数据的各位未来必定前程似锦,也相信火车采集器的未来光明可期。

 

评论(0) 引用(0) 浏览(893)

火车采集器||采集电商网站网页源码中未显示的评论数据

作者:dong 发布于:2018-9-10 9:47 Monday

经常有朋友问小采,如何采集电商网站网页源码中不显示的评论数据,今天小采就教大家如何使用火车采集器采集京东的网页源码中看不到的数据。

需要用到的工具:fiddler抓包工具,火车采集器

采集网址:  京东网址

首先我们打开fiddler,本次使用的fiddler汉化版的,英文版的原理一样

然后我们打开对应的网站

这里面对应的商品评价

我们看此评价在源码中是否存在,复制下图的一些内容

此时这一页的数据我们在源码中没有找到对应的信息

我们开启fiddler刷新当前页面

此时会刷新出很多的请求信息,我们把fiddler关闭,用刚才在源码中查找的那一段文字在fiddler里面Ctrl+F查找一下

这里有突出信息说明要查找的信息在这个请求里面

 

可以看到在网络视图(对应英文版webview)里面有对应的一个信息,此时这个http请求就是我们想要的信息,这个源码就是实际评论的源码

 

我们将这个网址放进采集器里面测试采集一下

针对这个单一的网址进行测试,勾选循环匹配哦

 

再和浏览器打开页面对比一下

这里其实有图片,但是小采为了测试用html标签过滤掉了,此时获取的信息和浏览器的信息是一样的,没有做分页,分页可以通过抓取不同页面的数据包然后对比一下网址的区别,这样就可以采集到在源码中页面上未显示的评论数据了。

 

评论(0) 引用(0) 浏览(221)

Powered by emlog