【东哥福利-新手必看】最新最全火车采集器V9版学习资料

作者:dong 发布于:2017-6-22 15:05 Thursday

最新最全火车采集器V9版学习帮助资料
新手必看
1、用户使用手册 http://www.locoy.com/index/guide
  PDF版下载:http://file.locoy.com/locoyspider/%E7%81%AB%E8%BD%A6%E9%87%87%E9%9B%86%E5%99%A8%E6%89%8B%E5%86%8C.pdf

2、视频教程
章节1:基本介绍
Lesson_1:火车采集器入门介绍 安装卸载:http://www.locoy.com/index/video_detail/cat_id/1
Lesson_2:一个简单的文章采集+发布演示:http://www.locoy.com/index/video_detail/cat_id/1/id/14

章节2:采集基础教程
Lesson_1:起始网址的设置:http://www.locoy.com/index/video_detail/cat_id/2
Lesson_2:[常规模式获取内容网址:http://www.locoy.com/index/video_detail/cat_id/2/id/11
Lesson_3:[高级模式]POST网址采集:http://www.locoy.com/index/video_detail/cat_id/2/id/12
Lesson_4:标签设置:http://www.locoy.com/index/video_detail/cat_id/2/id/15
Lesson_5:标签—数据处理:http://www.locoy.com/index/video_detail/cat_id/2/id/16
Lesson_6:标签—内容分页:http://www.locoy.com/index/video_detail/cat_id/2/id/17
Lesson_7:标签—内容循环设置http://www.locoy.com/index/video_detail/cat_id/2/id/18

章节3:发布基础教程
Lesson_1:WEB发布模块的制作:http://www.locoy.com/index/video_detail/cat_id/3/id/21
Lesson_2:数据库入库模块的配置:http://www.locoy.com/index/video_detail/cat_id/3/id/20
Lesson_3:保存为本地Txt,Word,Excel等文件:http://www.locoy.com/index/video_detail/cat_id/3/id/19

进阶教程
2016年最新直播录屏视频
火车采集器网址采集操作:http://www.locoy.com/index/video_detail/cat_id/11/id/22
火车采集器内容采集操作:http://www.locoy.com/index/video_detail/cat_id/11/id/23
火车采集器V9发布操作之web发布模块:http://www.locoy.com/index/video_detail/cat_id/11/id/24
火车采集器V9发布操作之保存本地文件:http://www.locoy.com/index/video_detail/cat_id/11/id/25
火车采集器V9发布操作之入库发布模块:http://www.locoy.com/index/video_detail/cat_id/11/id/26
火车采集器V9高级功能操作视频教程:http://www.locoy.com/index/video_detail/cat_id/11/id/27
火车采集器V9其他设置操作教程:http://www.locoy.com/index/video_detail/cat_id/11/id/28
火车采集器V9之论坛采集及Discuz论坛发布操作教程:http://www.locoy.com/index/video_detail/cat_id/11/id/29
火车采集器V9教程之插件介绍:http://www.locoy.com/index/video_detail/cat_id/11/id/30
真实案例规则分享讲解:
【东哥福利】火车采集器V9财富网业绩预告信息采集规则分享
【东哥福利】火车采集器V9住哪儿网酒店信息采集规则分享
【东哥福利】火车采集器V9安居客小区信息采集规则分享
【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享

【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享

火车采集器V9常见问题/功能介绍集合
http://faq.locoy.com/qc-61.html?p=1
扫描二维码关注官方微信,每周分享更多技巧

联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy

评论(2) 引用(0) 浏览(2905)

【教程】火车采集器获取58同城租房信息

作者:dong 发布于:2018-8-13 9:13 Monday

上文刚介绍了朋友少杰被老板吩咐了一个任务,采集58同城房产信息,但其实除了传统的复制粘贴之外,其实还有一种很简单好用的妙招,那就是用火车采集器采集58租房信息,今天小采就把这个方法分享给大家。

1. 打开  58同城合肥租房网址

 

2. 根据网址和源码制作采集规则

一、网址设置:

 

网址测试结果如下:

二、内容获取设置:

1. 前后截取:

2. 多页设置:

结果如下:

手机号码是通过手机网址获取的,可以从源码里找到。

3. 运行任务结果如下:

好啦,就是这样简单实用的操作,是不是很方便?

火车采集器不但可以为你省掉一整套繁琐复杂的复制粘贴流程,也能让你工作效率倍增,在老板面前脱颖而出。

并且如果你要自己租房的话,火车采集器也是能为你节省一大半网上看房时间的“租房神器”呢!

爱心小贴士

1.58同城的电话信息火车采集器能不能采集?
答:58同城电话现在分为两种,一种是直接显示在页面上面能够看到电话信息的,这种可以采集。

第二种是需要扫码才能看到电话信息,这种就不能采集(无法突破二维码扫码的限制)

2.58同城信息用火车采集器采集起来有什么限制?
答:58同城如果长时间采集的话,会封电脑IP,这种设置代理IP即可(代理IP可以从第三方平台购买)

3.火车采集器是不是输入58同城地址就能自动采集?
答:不能,火车采集器需要针对不同的栏目设置规则,因为每个栏目采集规则不同,只有针对不同栏目相对应的设置规则,才能精准采集

 

 

评论(0) 引用(0) 浏览(42)

利用火车采集器如何让你“时薪”暴涨

作者:dong 发布于:2018-8-13 9:12 Monday

朋友少杰最近刚进了一家房产公司,老板交代给了他一项任务,让他去采集58同城的房产信息。

说实话,接到这个任务的时候少杰心里是一点准备也没有的,也并不认为这是一件很困难的事,毕竟就只是复制粘贴吗,一点技术性含量都没有的工作。

然而,很快,他就为他的轻视付出了代价
假设一个商品他需要1分钟时间搞定,以上作业全部完成大概需要500分钟,接近10个小时。

很多人在刚进入职场的时候会遇到这种事情,老员工或者老板把这种重复劳动又对成长毫无价值的工作扔给你做。

当你牺牲了周末陪女朋友逛街嬉戏的时间,然后一个一个将这些商品复制粘贴到表格里交给老板看过后,你以为有什么改变?不,老板看过了,就没有然后了。
因为这只是一件谁都能干的事而已,即使它也是一件繁琐到谁都不想干的事。

接近10个小时的重复性工作,压力真的会累到压垮你。负面效果非常多,可以说是挑战人体极限了。

不仅仅是心理视觉上的疲劳,某权威期刊的一份研究报告指出,"重复性压力伤害Repetitive Strain Injury)"的病患,是因为肉体过度劳累而造成的,而非心理压力导致的。过度劳累带来的不仅是心理疲劳,还有可能造成身体上无法逆转的伤害。

这种重复劳动做上10分钟,大多数人也就认了,但是做10小时,估计精神的疲惫需要很长时间才能恢复过来。

何况10小时可能还不够,事实上到了后期,1个条目1分钟的速度是几乎不可能实现的。

那么换个思路你能有什么办法呢?

在《绣春刀》中,主角的师兄周一围说过一句经典名言:这是我的手足兄弟至爱亲朋啊,要加钱。

敲重点:加钱!!!

很多事情,你之所以找不到人帮你做,无非就是,没加钱或者钱不够。

是的,没有什么是钱不能解决的问题。除了重复性的复制粘贴外,你还有一种方法能解决这个问题,那就是利用爬虫技术,但少杰说,他不会爬虫该怎么办?

于是我向他推荐了火车采集器——不需要会Python,无需码代码,便可采集全网信息的数据采集器。

以采集58同城泉州租房信息为例,入口网址为:58网站地址

设置好采集网址:

经过几步操作过后就能发现采集租房信息根本都不是事儿,而这仅仅只需您每天两块六毛钱的最低消费。

敢于豪赌博人生,深谙世道会做人。

我们可以想过一个问题,为什么老板不自己做这件事呢?

答案很简单,因为他的时间比你宝贵,所以他把重复劳动交给你来做。

那么这时候你有2个选择:

如果你还有手下,如法炮制,把这事情交给你的手下来做。

在公务员系统中,这种事情就经常发生。一层压一层,最后让小兵来完成局长应该完成的无聊/繁琐的工作。比如点一些无聊的组织规定的学习网页之类的工作,BOSS们一般是不会亲力亲为的。但是这样你就永远只是一个无能小兵,别提如何走上人生巅峰了。

很多人应该听过穷人和富人的故事,富人送给穷人一头牛帮他致富,穷人却在一次次的妥协中将牛卖了换成羊涮羊肉,把羊卖了炖鸡吃,到最后仍然一贫如洗。

很多穷人都有过梦想,甚至有过机遇,有过行动,但要坚持到底却很难,性格形成习惯,习惯决定成功一个成功的人应该学会利用时间,如何用最快的时间完成最多的工作。

火车采集器它不能带你走上人生巅峰,也不能帮你摆脱人生的困境,真正能带你走上巅峰的只有你自己经过长久考量下的深思熟虑,个人眼界的宽广才是决定你人生高度的决定因素。

最后,让小采打个广告哈,想要购买火车采集器的朋友,在官网下单记得报小采的名字哦!

 

 

评论(0) 引用(0) 浏览(27)

超越Phantomjs的商业浏览器开发SDK

作者:小文 发布于:2018-8-1 17:45 Wednesday 分类:功能介绍

最低只要七行代码,执行一个完整的任务,超越Phantomjs的商业浏览器开发SDK了解一下,资料下载  。火车浏览器V7二次开发SDK(C#).zip

 

以下为相关截图:

 

点击查看原图

点击查看原图

点击查看原图

点击查看原图

点击查看原图

点击查看原图

 

评论(0) 引用(0) 浏览(173)

技术无罪,解析爬虫技术带给我们生活中哪些改变!

作者:dong 发布于:2018-7-31 14:07 Tuesday

每到节假日,小采的朋友圈里总是会看到这样的照片,并且还配上一段“麻烦帮我点一下,,,之类语法可能会变语意永远相同的类似语句。”

每当这个时候我就知道陶子又要抢回家的火车票了。

不知何时,每年都有那么几天,小采的朋友陶子总会心情焦虑,坐立不安,按他的话来说:“去火车站抢票是永远不可能去的,也就只能靠着抢票软件维持生活了。”这两年他换了不止数款抢票软件,可以说是抢票行家了。

作为家中独子,我很能理解他的感受。

但作为一个有梦想的运营喵,我不禁对这种抢票软件产生了浓浓的兴趣。

这分明代表着——“话题!!!”

今天我们就从抢票软件开聊,谈谈爬虫技术带给我们生活中哪些改变!

众所周知,抢票软件的背后,藏着无数个叫做“爬虫”的小东西

喏,它们长这样:

等等,好像有点不对劲,应该是这样的爬虫:

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁自动索引模拟程序或者蠕虫

爬虫就像是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在互联网这栋四通八达的大楼里不知疲倦地爬来爬去。

现在我们的身边的网络处处都可见这些小可爱的影子,它们善恶不同,各怀心思,越是利益相关的地方,就越是布满了爬虫

图片来源:云鼎实验室

在出行方面出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。

你还记得被这样的人脸验证码支配的恐惧吗?

像这种“神坑”的验证码并不是为了为难我们这些老实本分买票的人的,正相反,它研发的目的就是为了阻止爬虫(也就是抢票软件)的点击。上面说过,爬虫是一个死板的东西,它只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。

但是“道高一尺魔高一丈”,光凭这样显然是无法阻挡爬虫的脚步的,现在市面上盛行的各类抢票软件就是明证!

有一种东西叫做“打码平台”,你可以了解一下。

打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。

当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。

12306”为什么不做措施防止采集呢?你可能会问。

你知道每年过年之前,12306 被点成什么样了吗?

公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。

总结所以不是不想防,而是防不胜防啊!,真是个悲伤的故事!

说完出行难,我们再来谈谈社交吧

上图是爬虫经常光顾的微博地址。

这里的代码其实指向了微博的一个接口。它可以用来获取某个人的微博列表微博的状态索引等等等等。

获得这些,能搞出什么骚操作呢?

僵尸粉”的上班流程了解一下——你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。

更甚者,还可以利用这套流程发家致富:

1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。

2、我去找一个app开发公司,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条app的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。

3、我发出注册链接,然后没人点。。。

4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。

5、我躺在床上,笑眯眯地数着赚来的一万块钱。

以上故事纯属虚构,如有雷同,具体操作也会更复杂,请勿随意模仿。)

再者,你平时点开的大众点评和美团等美食软件上的点评信息是真的吗?

答曰:部分是真,部分是假,真真假假谁又说得清呢?

造成这种情况的还是爬虫:

很多刚上点评的商户,信誉值不高,就会用爬虫来模拟留言、点赞,刷高自己的信誉值。

同理,淘宝、京东等电商用户也是如此。

所以,这些平台都对这种刷单行为深恶痛绝,因为一旦松懈平台的信誉值就完蛋了。

很多人做过网站,应该知道“权重值”的意思,那么怎么提升权重呢?

你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多。

既然这样,那么我就派出爬虫,搜索某个特定的“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做 SEO(搜索引擎优化)。

我就举个例子,随意搜索一个关键词,它排在前面的网址,有可能就是经过 SEO 的。作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。

所以才会有那么多的悲剧,百度医疗竞价排名害死人事件不知道的同学可以去了解一下。

SEO是一把双刃剑,它可以救人也可以害人,技术不分好坏,善恶只在掌握它们的人手上。

说了这么多,我猜你会有几个疑问

问题 1、爬虫搞出这么多姿势,它究竟是不是违法呢?

这个问题还真的不简单。

我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。

于是我又继续搜索,发现了几条司法解释:

  • 未经授权爬取用户手机通讯录超过50条记录;

  • 未经授权抓取用户淘宝交易记录超过500条;

  • 未经授权读取用户运营商网站通话记录超过500条;

  • 未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。

但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见

因此得出结论,只要不触碰禁区,爬虫并不违法。

问题2、爬虫对于普通人有什么好处呢?

举个例子:在排名第五的行政领域:

在中国,我们的信用体系还很不完善的情况下,骗子和老赖在犯罪后还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。这项服务大大减少了网络犯罪的犯罪率。

所以,最后,我想说技术无罪,我认为善的定义就是有利于人类。刘震云说的一段话很好:在生活中,有的是吃人的人,有的是被吃的人,但是这两种人可以转化,羊渐渐可以转成狼;狼呢,渐渐地到一定阶段也可以转变成羊。

就好像是善恶一样,没有绝对的善恶,你这人特别的善良,那也有特别不善良的地方。最可笑的还有许多人,在羊向狼转化的时候,转化成一半,停在那儿了,半羊半狼,自己也闹不太清楚,到底是羊还是狼。

爬虫并没有思想,你想生活在一个怎样的世界,就要用自己的理念去实现!

 

评论(0) 引用(0) 浏览(85)

Powered by emlog