合肥乐维信息技术有限公司携手上海工程技术大学 共建数据获取与可视化联合实验室

作者:dong 发布于:2018-6-12 18:15 Tuesday

2018年6月11日下午,合肥乐维信息技术有限公司-上海工程技术大学共建“数据获取与可视化联合实验室”合作签约仪式在合肥乐维信息技术有限公司举行,上海工程技术大学电子电气工程学院计算机系副主任黄勃、讲师俞雷与带领的研究生团队参与此次会议,合肥乐维信息技术有限公司总经理李进斌先生、副总经理汶锐权、商务部主管徐小明代表乐维出席仪式并分别致辞。

5.jpg 

此次共建为实现“企校合作,产学研究紧密结合”,打造“国内一流、国际领先”的大数据挖掘技术研发、应用可视化和产业化基地,为全面提升合作双方的行业影响力和核心竞争力奠定了良好的开端。

据了解,“数据获取与可视化联合实验室”将在合肥乐维信息技术有限公司和上海工程技术大学电子电气工程学院分别挂牌成立。

41739.jpg 

双方强强联合,充分发挥各自行业领先优势,聚焦大数据领域、开展教育科研、人才培养和产品研发等多方面的合作。

此次建立联合实验室的目标是在互利互惠的基础上,重点突出数据信息化、智能化和可视化研究及应用实践。上海工程技术大学将申报开设全国首批大数据专业招生,将在大数据专业人才培养,大数据相关项目开展深入合作。

IMG_20180611_141916.jpg 

会后合作双方在公司进行合影,上海工程技术大学计算机系副主任黄勃积极肯定了校企“合作共赢”的理念,有利于加强产学研合作,感谢合肥乐维信息技术有限公司为电子电气工程学院所做的支持,希望“数据获取与可视化联合实验室”能依托高校的科研优势和乐维的数据挖掘技术,做好对大数据研究和应用的技术支撑,为大数据产业的发展壮大做出更大贡献。

评论(0) 引用(0) 浏览(2433)

两块六毛钱你能买到什么?

作者:dong 发布于:2018-5-17 18:14 Thursday

在广州3元钱你或许能买到一瓶不加冰的可乐

在上海3元钱以内你能够坐6公里,大约2-3站路

在北京,3元钱你换不来一个加蛋的煎饼果子

然而在乐维,仅仅只需3元不到@全体采友

最低只要两块六毛钱

你就能拥有一款神奇的大数据采集工具

火车采集器

火车采集器,一款为你省钱的网络数据采集工具!


我们来算一笔帐,正常人每天早餐大概花多少钱?

一个正常男性每天的早餐费大约不超过10元。

也就是说相当于节省一顿早餐的饭钱,你就可以买到长达3天的火车采集器使用权。

穿

以淘宝官网来定,我任意点开一间店铺找到一件商品。

可以看到这件男装现在售价89元,而这仅仅相当于约30天基础版火车采集器使用权的售价,你还在等什么?

同理,打开百度,随意选择合肥市内一家酒店官网价格目录。

我们可以很清楚的看到以上的价格清单,按最低价格起144元房费起算。也就是说你每住一晚快捷酒店所花费用就足够你使用48天火车采集器了。

一个半月时间的火车采集器使用权最低只需一晚房费钱!

合肥夏季公交车开空调2元钱一次,来回4元。

上海地铁3元大概能坐6公里,6公里至16公里4元钱。

公共出行交通方式的价格最低消费大约3元起,相当于购买火车采集器一天使用权的价格。

你每走6公里路,就可以消耗500卡路里的热量,还能够省下购买火车器一天使用权的费用。

坚持一年,你便可以永久拥有一款属于你自己的火车采集。(冰果,发现健身省钱新套路!)

火车采集器它不仅能省钱,还能为您创造财富!

打开猪八戒网,我们点进去看看,搜索大数据采集关键字

小采截了四页图,显而易见,有关大数据采集的服务看上去就价格不菲。

而火车采集器每天最低只需两块六,最豪华的组合套餐也只需七块三毛钱你就可以买到,可以说是很良心的价格了。

不仅如此,我们再看看学好大数据采集,在人才招聘市场上的薪资情况:

火车采集器不只是一款简单的数据采集软件,它更是你学好大数据采集基础的一块敲门砖!

学好火车采集,不仅能帮你省下一大笔钱,更重要的是它对你的职场生涯也有很大助益,能帮助你以超人一等的工作效率完成任务。

一份赚钱的职业,从学会火车采集开始

大数据采集第一划算秘籍

火车采集省时省力又省钱

苦口婆心帮你省钱的小采敬上!

 

ps:软件付费一次,永久免费使用,并赠送一年技术服务年限,服务年限内免费升级。老用户推荐更可享受9折优惠,详情可在线咨询火车采集客服MM(记得要注明是从火车采集官方公众号来的哦)。

 

评论(0) 引用(0) 浏览(2068)

520,火车采集带你探秘偶像胡歌的秘密世界

作者:dong 发布于:2018-5-17 17:22 Thursday

又到了一年一度的表白日

周末就是520了

害羞的我

把自己的心声

藏在文章中

如果恰好你也看见

如果你也恰好喜欢我

那么......

你还是没对象

不过没对象也没关系,毕竟小采是有偶像的人。

520别人都在谈对象,那小采就献丑一番

让小采带领大家探秘一下偶像胡歌的秘密世界

(是不是转折太快了?毕竟我也是一篇教程文案啊~)

首先我们一定要在脚本中添加微博的用户名密码这样脚本才能正常运行,可以直接文本输入也可添加变量,如下图:

然后打开新浪搜索胡歌的微博主界面

注意如遇到浏览器内下拉瀑布流无反应的情况,建议多刷新一下页面或者重新打开页面

元素写值加悬浮框进行账号登录,否则采集的时候会弹框

然后进行循环操作,这里以循环20次为例,循环提取胡歌发布的文字内容信息

因为有瀑布流格式,这里用滚动条设置,最好选择滚动行数,这样下面的东西才有可能加载完全

接下来提取内容保存到list变量,然后点击下一页,我们就得到了想要的内容

小采这么辛苦的爬取老大的微博,拿到胡歌所有微博的数据,当然不是这么简单就完事了哦!

现在我们就抓取到的数据来做一个简单的分析:

首先我们看看,胡歌最喜欢@哪些人(这里去掉了@胡歌

除了@他自己,他最喜欢@的人就是:唐嫣、刘诗诗、古月哥欠、胡佳、蒋劲夫、林更新。这些都是圈内的好朋友,唐嫣、刘诗诗可都是名花有主了,胡歌、蒋劲夫还都是单身汉,至于林更新,和素颜女神王丽坤的恋情也一直很引人瞩目。

继续说胡歌,下图是胡歌最喜欢转发的人:

除了胡歌自己,有蔡艺侬(上海唐人电影制作有限公司总裁)、莎朗ss、扎西顿珠、藤井树小姐(资深影评人)、袁弘,其他比较熟悉面孔还有唐嫣、侯洪亮、刘诗诗。

其中有一个人“莎朗ss”,6万多粉丝,但是同时有唐嫣、胡歌、刘诗诗都在关注。这个人又是谁呢?

胡歌注册微博的时间是:2009-08-28,在接下来的一年中,胡歌发了916条微博,平局每天发2.5条微博,而在2016年,3天才发一条,有数据表示,胡歌2016年代言30个广告,有小红书、sony、光明畅优、猎聘网、美孚英语等,名副其实的广告胡。

而到去年9月19日,胡歌也才发了44条,越来越少了。

  • 胡歌代言过的广告

在2017中国名人收入排行榜上,胡歌排在第10位,比杨幂还高。

  • 2016年胡歌一部戏也没拍,光靠广告就挣了1.3亿吗?

然后我们来对提取到的内容做个分词,看一下胡歌的微博中出现最密集的十大关键词是什么:

由于这次使用的插件是使用文本型变量,需要变量转换一下

这里我们调用外部插件选择中文分词,只找前十个高频词,每个词之间用逗号隔开。

接下来就是保存该文本变量看下效果了

可以很清楚看到伪装者,猎场,等电视剧,视频相关的名词出现较多,上海是胡歌的家乡,那么阿拉是什么呢?

如果你也有在追的爱豆,有兴趣的朋友可以自己试着操作一下,脚本我就放在下方阅读原文里了,大家可以自行下载。

 

评论(0) 引用(0) 浏览(2037)

母亲节预刊,看网友都在天猫买啥送妈妈

作者:dong 发布于:2018-5-9 17:13 Wednesday


母亲节预刊

她是十月怀胎生下你的女人

她是深情叫你宝贝的女人

她是永远不会嫌弃你的女人

她是默默付出不求你回报的女人

她是唯一愿意给你全世界的女人

她是你生命里最重要的女人

她是:妈妈

又是一年母亲节,全世界妈妈们的专属节日,是时候该给你生命中最重要的女人,你的母亲选择一份节日惊喜了。

今天小采就带领大家看看网友们在母亲节将来临的日子里是依据怎样的条件来给妈妈挑选礼物的吧!

1

我们以天猫为例:

第一步打开网址,输入并搜索母亲节礼物关键词,查询商品信息。

下拉至商品页面底部,点击下一页和第三页得到网址,

分析可知网址是60次序递增的,于是在采集器中设置如图:

图片1.png

接下来该怎么做呢?

第二步:我们首先得分析源码,并设置一个可用的提取规则(因为价格和商品名在列表页中有,设置列表页标签提取)

图片2.png

因为网站采集需要抓取ua和cookie 放入

图片3.png

第三步:再然后打开内容页源码,这时候我们来分析一下源码设置采集规则

(1)我们都知道在网上买东西的看看发货地址在哪里,所以先设置一下商家发货地址采集

4.png

(2)又因为网络购物在快递途中的不确定性,为了避免收到损坏物品无处维权、浪费时间,所以我们得将是否七天无理由退换货设置为采集条件。

5.png

若能采集到数据,则代表此样商品可以七天无理由退换

若采集结果为空集,则不能七天无理由退换,这样我们当然不会选择。

最终运行规则得出采集结果:

6.png

(备注:

(1)网站需要抓取ua和cookie采集,可参考http://faq.locoy.com/q-1129.html 学习使用抓包工具获取

(2)若需要长时间采集,网址会封ip,需使用二级代理来跟换ip,实现长时间采集)

2

我们首先来分析一下上面抓取到的的购物数据,我们采集到共计600条商品信息。如上图所示。

7.png

然后我们对采集到的地址数据先进行分析。

8.png

发现“浙江金华”、“广州”、“深圳”这三个地方明显占比较高,北京、上海不甘示弱紧随其后。在之后同样是地处江浙地带的城市,前十也只有北京,上海,福建不是在江浙地区。根据这些数据分析,我们不难得出,天猫畅销的母亲节礼物大多出自江浙地带(算算时间,路远的朋友们得早点下单啦

9.png

说完地址我们再来看一下大家爱选的母亲节礼物属性,从词云图中可以看出,网友们更偏爱实用性较强的礼物,但也有一部分网友把母亲节当情人节过。把妈妈当“情人”一样宠,可以说是很“儿女力”了。

3

中国妈妈在孩子眼中就像是超人一样,实用才是标配。

可是就算超人也会累,妈妈也需要休息、也需要人宠。

俗话说得好,女儿是爸爸的小棉袄。同样的儿女也可以是妈妈的“小情郎”,时时刻刻惦记着她。

(ps:母亲节快到了,父亲节也就不远了哦)

记得原来看过一首诗,诗里这样写道:

5月

13日母亲节

瀑布的水逆流成上

蒲公英的种子成远处飘回,聚成伞的模样

太阳从东方升起,落向西方

子弹退回枪膛

运动员回到起跑线上

我交回录取通知书,忘了十年寒窗

厨房里飘来饭菜的香

你把我的卷子签好名字

关掉电视,帮我把书包背上

你还在我身旁

人生最美好最值得感恩纪念的事,大约就是在我们有能力报答父母之恩的时候,双亲尚在身旁。子欲养而亲不待,才是人世间最悲惨的事。

既然接受一个开放的节日,那就要用一个开放的表达态度。

距母亲节还有三天的时间,如果你还没准备好送什么礼物给妈妈的话,还不速去订购一份礼物送给最亲爱的妈妈吗?

评论(0) 引用(0) 浏览(11407)

BOSS直聘招聘信息采集规则分享

作者:dong 发布于:2018-5-4 17:38 Friday


把工资定在1500,随便找份工作就能搞定;

把工资定在2000,端正下态度也能得到;

把工资定在3000—5000,就必须努力去获取。

如果你把它定在6000以上、1万、5万、20万甚至于更高。

那么就请不要带着情绪去工作,

而是全力以赴,不惜代价去努力、竭尽全力去实现自己的价值!

不要抱怨不公平,天上不会掉馅饼,越努力越幸运!

But有时候,天上其实真的可能会掉馅饼!

Everybody  Come on, 注意了!!!

火车采集器教您快速采集boss直聘网招聘信息

让您高效找到适合您的工作

轻松进入职场

不让低效面试浪费您的宝贵时间。

1

采集第一步:打开boss直聘网站,选择地点,输入行业关键词

这里我们以爬虫为例,搜索跟爬虫技术有关的工作。

https://www.zhipin.com/c101010100/h_101010100/?query=%E7%88%AC%E8%99%AB&page=1&ka=page-1

2

第二步:分析网址的分页规律

3

第三步:编辑采集器规则

1.编辑网址采集规则

注意:由于采集的内容在列表页,需要把起始网址当做内容页采集

2.编辑内容采集规则

注意:根据源代码的差异,使用前后截取,获得需要的内容,勾选循环匹配

3.运行采集规则

如上图所示。


大家可以分析一下采集下来的数据,按照公司规模/薪资/地点等进行排序,轻松找到适合自己的工作招聘信息,快人一步抢到就业良机!

还不会操作的朋友们,可以点击下方阅读原文,拿到规则,自己去试练一下吧!毕竟你未来的工作你去选,你的人生你决定!

PS:(玩转火车采集,找工作不必愁,如果您熟练操作火车采集器,懂Python编程语言,小采告诉您一个小秘密,去各大职业招聘网上搜索、采集一下关键词“火车采集器”或“locoy”~,有神秘惊喜等着你。)

评论(0) 引用(0) 浏览(11579)

Powered by emlog