360搜索关键词采集教程

作者:dong 发布于:2018-10-19 13:55 Friday

熊孩子,许多人心中行走的噩梦。他们可能处于不同的年龄段,但都有着极大的好奇心,破坏力和充足的时间。

他们的身影无处不在,除了不懂得守规矩和尊重别人,有些“熊孩子”还肆意妄为,闯下大祸。

  • 2012年4月,广西一名13岁女孩,因不满同学长得比自己漂亮,将其约至家中,用板凳将同学砸晕后,再用菜刀、啤酒瓶、剪刀等将其杀害分尸。

  • 2013年11月25日,重庆一10岁女孩电梯内摔打10岁半男童,并致其从25楼坠落,重伤昏迷。

  • 2014年8月25日,贵阳10岁男孩因为嫌楼外施工声音太吵,妨碍自己看动画片,一气之下,用小刀割断了楼外施工者的高空安全绳,致其悬在半空40多分钟动弹不得。

  • 2015年10月18日邵东县廉桥镇三名在校生到学校小卖部偷东西吃时被独自守校的女教师发现。三人对老师进行殴打后,用布堵住老师嘴巴致其窒息死亡并抢走手机及2000余元现金。10月19日三名嫌疑人被抓获,因未满14岁,三人免于承担刑事责任,但被送往绵阳市工读学校。

  • 2016年8月10日,四川一13岁男孩心生歹念,为抢一部手机,泼汽油烧伤女教师,导致其重度烧伤,大部分手指被截肢。

  • 2017年8月23日,郑州一男孩模仿医生,用针管往输液瓶里面注入了浑浊脏水,致其奶奶生命垂危。

  • 2018年8月30日,福州仓山区一名男童用打火机点燃了一户业主临时堆放在大堂里的包装手提袋后,淡定离开现场,引起住宅楼燃起大火。

—1—

“他还是个孩子”已经成为了中国家长最不要脸的借口。

每个“熊孩子”背后,大概率都有一位“熊家长”,他们会不断地为“熊孩子”的无理行为寻找理由,为自己的不善管教百般开脱。

而处处袒护“熊孩子”的家长,孩子们缺的教养,终会报复在他们身上。

我们在360浏览器搜索一下未成年人犯罪烟台市关键词:

1.在360搜索“未成年人犯罪烟台市”关键词,得到第一页地址,然后点击第二页,分析两个网页地址中变化的页数部分,并将该地址添加为起始地址。

 

2.我们现在采集的是列表页中的摘要以及标题,并不需要点击内容页中去,所以现在起始网址就是内容页,我们需要点击下面的按钮:

 

3.接下来就是根据标题以及摘要在源码中分布规律写前后匹配规则,并勾选循环匹配。

  

采集结果:

 

结果令人触目惊心!

淘气、调皮是孩子的天性,

没有人一生下来就懂得社会规则和文明礼仪。

但家长的无条件的放养,会让孩子缺少最基本的敬畏之心。

在没有制度约束、惩罚机制的情况下,

孩子很容易做出野蛮的举动,生物性中的恶便倾泻而出。

2

根据国家统计局2016年数据显示,青少年罪犯(14-25岁)在刑事罪犯总数中占比14.37%。


而不满14周岁的儿童故意实施任何刑法禁止行为,均不负刑事责任。

但年纪小,不应成为犯罪的“护身符”。

犯罪学的研究与实践表明,年龄与犯罪有着密切的关系,

犯罪的年龄越小,次数越多,长大以后成为惯犯、累犯的越多。

据统计,初犯年龄小于11岁的,有65%的人会再犯;

初犯年龄在12至15周岁的,其再犯率为54%;

在成年累犯率中,7/8的人曾为违法犯罪少年。

别觉得现在“还是个孩子”,将来有可能就是恶魔。

前几天,13岁少女肢解同学案在发生6年后莫名又火起来,引起了社会对未成年人犯罪的广泛关注。

一个13岁的女生,仅仅因为嫉妒同班同学长得比她漂亮,就将其约至家中,然后杀人分尸,再把分散的尸体装进塑料袋,并清理了现场的案发血迹。

其手段之残忍,心思之缜密,真的很难想象做出这些事的是一个13岁的少女。考虑到凶手的作案手段和心理素质,真的是叫人毛骨悚然。

《未成年人保护法》究竟保护了谁?

在“13岁少女肢解同学案”中,受害人同样是未成年人。

法律对她又是否尽了足够的保护?

法律应该怎么体现对受害人家属的救济?

至少现行的法律体系,还无法很好地回答这两个问题。

希望这些案例能够推动《未成年人保护法》的修订。

未成年人保护法,不该保护人性中的恶。

如果法律保护的是人性中的恶,那么总有一天,整个社会要为此买单。

地狱空荡荡,恶魔在人间!

评论(0) 引用(0) 浏览(4049)

【教程】途牛网采集规则分享

作者:dong 发布于:2018-9-19 11:39 Wednesday

进入9月

想旅行的心一直在躁动

中秋小长假和国庆黄金周

终于要来啦!

timg.gif 

中秋节是团圆的日子

虽然假期不长

但是带着一家老小散散心

别提有多幸福了

今天我们就来带大家看一下

如何采集途牛旅行网中秋旅行有关活动前十名的数据信息

微信图片_20180919110634.gif


首先,打开需要采集的页面:

http://s.tuniu.com/search_complex/whole-nj-0-%E4%B8%AD%E7%A7%8B/,因为我们只需要采集前十条热门旅游景点,所以不需要再分析下一页,直接将地址放在采集器起始地址中即可,然后在网页源码中分析内容页地址的前后源码:

1.png 


测试采集列表页地址结果:

2.png 


接下来就是具体分析内容页中需要采集的标签,下面以价格为例,分析下价格的前后字符:

3.png

分析前后字符后填入火车采集器如下:

4.png 


其他标签一样的方式分析,不再截图叙述,内容标签采集结果如下:

5.png


此次需注意:

1. 因为我们只采集前10条,因此可定义最大采集数为10,这样我们就得到了全部数据信息。

6.png

“我曾经跨过山和大海,也穿过人山人海,最后还是遗失在人潮里”,这恐怕是国庆假期出行年年的写照

中秋国庆双节即将来临

介绍完中秋国庆值得去的目的地

小采温馨提醒各位采友

中秋国庆出去旅行,一定要注意安全哦!

评论(0) 引用(0) 浏览(2067)

【教程】知乎采集规则分享

作者:dong 发布于:2018-9-19 10:39 Wednesday

苹果举办了Apple 2018秋季发布会

史上最贵的iPhone横空出世

售价高达12799元!

吓得小采

赶紧摸了摸肾还在不?

微信图片_20180919102351.jpg

其实么,有时候做个吃瓜群众挺好的

说到吃瓜群众就不得不谈谈大知了

今天我们就来探讨一下

如何采集知乎群众对“iPhone”的看法吧!

微信图片_20180919102458.jpg


第一步:在浏览器中打开知乎网站,然后登录知乎账号,登录后打开fiddler用于抓包,做好上述准备工作后。搜索你感兴趣的关键词,这次我们使用‘iphone’ 作为关键词,fiddler进行抓包。因为知乎是瀑布流形式的下一页,因此,我们再往下拖动瀑布流,抓取更多页的列表页。

图片1.png 

抓取数据如上图


第二步:接下来我们要分析,列表页地址在哪一个请求里面,找第一页的网址,然后在fiddler中进行搜索。找到包含地址的网址,然后记录下来。接下来找第二页中的网址,然后在fiddler中分析,

图片2.png 

可以看到我记录的网址分布规律:

图片3.png 

第一页地址,跟第二页第三页的格式分配规律不同,然后分析可以看到第二页第三页中变化的参数是offset,我们改变offset的值为零,可以看到源码中是有第一页中的内容的,所以我们用这个地址作为第一页的地址,然后再分析内容页地址。

知乎有两种类型的网页,我们取这种类型的网页:

图片4.png 

通过分析源码得到列表页提取规则如下:

图片5.png 


第三步:在内容页源码中找所需字段的前后代码,以内容字段的前后分析字段示例:

采集页面:

图片6.png 

源码示例:

图片7.png 

采集器设置:

图片8.png 

其余字段分析原理一致,不做赘述。

采集结果如下:

图片9.png 

此次编写需注意:

1. fiddler的熟练使用,可以参考教程:http://faq.locoy.com/q-1129.html


评论(0) 引用(0) 浏览(8220)

火车采集器:关于近期有人冒充我司名义行骗的严正声明

作者:dong 发布于:2018-9-10 9:49 Monday

关于近期有人冒充我司名义行骗的严正声明

 

近期,有人冒充我司名义,从事行骗活动,此行为严重损害了我司品牌和客户利益。为避免客户受骗,维护公司合法权益,现严正声明:

 

1. 我司官方客服QQ800019423,联系电话0551-62864156,官方网站www.locoy.com,微信公众号火车采集器(微信号locoyplatform),请通过以上联系方式和我们联系以及在官方网站上进行购买支付交易。

 

2. 我司从未授权任何人或是公司代理销售我司软件产品,也不为任何人或公司的交易做任何担保。用户和第三方进行数据采集交易,请勿轻信夸大的承诺。

 

3、郑重警告正在冒用我司名义进行销售及其他活动的任何个人或组织,立即停止此类非法行为。对于损害我司合法权益的行为,我司保留追究诉诸法律的权利。

 

特此声明

合肥乐维信息技术有限公司

2018910

评论(0) 引用(0) 浏览(1911)

数据驱动社群运营,怎样科学找到你的群聊kol

作者:dong 发布于:2018-9-10 9:49 Monday

前些天看知乎,看到有人讨论kol,如下图:

 

小采想就kol跟大家来聊一聊,为什么你手机里曾经加入过的好多群聊,最后都无声无息的死掉了?

总结了一下群聊死掉的原因,我得出两个结论:

1、群里没有KOL,也就是没有人制造话题,活跃群氛围;

2、群聊定位不明确,运营者不知道大家喜欢聊什么。

我就以公司最近拉的“火车头YY培训交流群”为例子吧:

这个群是我们最近新拉的一个直播培训交流群,目的是方便直播培训活动的进行and为大家提供一个交流场所。

我把群里的聊天记录以txt文本形式都导了出来做了一个简单的分析,如图:

 

看上去很杂乱,这样的数据显然是不能直接用的,所以把数据导入excel表格。

但是直接导入excel表格的话你只会得到一堆无序的数据,这不是我们想要的。

因为如果你把它直接导入进Excel,会出现很多串行的情况,群消息的文本会有换行的内容。

所以这肯定是要处理的,并且会有两个比较严重的问题:

1. 换行后是时间的保留下,其他类型的换行全部去掉,要不然导入Excel会出现串行的情况;

2. TXT中字段之间的间距不一致,需要间距一样或者用相同的字符分开才能导入进Excel里。

TXT不支持通配符,所以需要放到Word中处理。复制进Word后,把所有的“^p2018”(通配符^p代表回车或者换行符)都替换成“####”保存下来,然后把其他剩余的“^p”全部删掉。然后再把####替换回“^p2018”。这样第一步完成。

这时你就得到了这样的数据,如图所示:

 

把这些数据导入excel表格,像这样:

 

再进行分列操作,具体如图:

分列操作
/
四步骤

经过一系列的操作,最后你能得到这样一张结构化的表:

 

前面有些地方会有替换处理不干净的,使用筛选功能,把串行的调整一下这样就完成了。

做下词云就能得到:

  

通过上面的操作,我们对这个群有了更深刻的了解,前面提到的两个问题,也有了解决办法。

对小采来说,还有一个收获:

我通过分析积极参与群聊的人,找到我群里的KOL,维护好他们就相当于维护好了我的社群。

词云图就无需过多解释了,高频词就是群成员关注的话题。

有一个地方提一下,群聊消息里面,有“@XXXX”这种内容,XXX是群成员的昵称。

如果你的词云图里某个成员的昵称出现了,那你要把这个人好好供起来了,他很大概率是群里最受欢迎的对象。

emmm,以上就是小采所采集的数据得到的结果,你也可以去操作一下,去找到独属于你群聊的kol!

 

评论(0) 引用(0) 浏览(2624)

Powered by emlog