火车采集器||采集电商网站网页源码中未显示的评论数据
作者:dong 发布于:2018-9-10 9:47 Monday
经常有朋友问小采,如何采集电商网站网页源码中不显示的评论数据,今天小采就教大家如何使用火车采集器采集京东的网页源码中看不到的数据。
需要用到的工具:fiddler抓包工具,火车采集器
采集网址: 京东网址
首先我们打开fiddler,本次使用的fiddler是汉化版的,英文版的原理一样
然后我们打开对应的网站
这里面对应的商品评价
我们看此评价在源码中是否存在,复制下图的一些内容
此时这一页的数据我们在源码中没有找到对应的信息
我们开启fiddler刷新当前页面
此时会刷新出很多的请求信息,我们把fiddler关闭,用刚才在源码中查找的那一段文字在fiddler里面Ctrl+F查找一下
这里有突出信息说明要查找的信息在这个请求里面
可以看到在网络视图(对应英文版webview)里面有对应的一个信息,此时这个http请求就是我们想要的信息,这个源码就是实际评论的源码
我们将这个网址放进采集器里面测试采集一下
针对这个单一的网址进行测试,勾选循环匹配哦
再和浏览器打开页面对比一下
这里其实有图片,但是小采为了测试用html标签过滤掉了,此时获取的信息和浏览器的信息是一样的,没有做分页,分页可以通过抓取不同页面的数据包然后对比一下网址的区别,这样就可以采集到在源码中页面上未显示的评论数据了。
【教程】火车采集器获取58同城租房信息
作者:dong 发布于:2018-8-13 9:13 Monday
上文刚介绍了朋友少杰被老板吩咐了一个任务,采集58同城房产信息,但其实除了传统的复制粘贴之外,其实还有一种很简单好用的妙招,那就是用火车采集器采集58租房信息,今天小采就把这个方法分享给大家。
1. 打开 58同城合肥租房网址
2. 根据网址和源码制作采集规则
一、网址设置:
网址测试结果如下:
二、内容获取设置:
1. 前后截取:
2. 多页设置:
结果如下:
手机号码是通过手机网址获取的,可以从源码里找到。
3. 运行任务结果如下:
好啦,就是这样简单实用的操作,是不是很方便?
火车采集器不但可以为你省掉一整套繁琐复杂的复制粘贴流程,也能让你工作效率倍增,在老板面前脱颖而出。
并且如果你要自己租房的话,火车采集器也是能为你节省一大半网上看房时间的“租房神器”呢!
1.58同城的电话信息火车采集器能不能采集?
答:58同城电话现在分为两种,一种是直接显示在页面上面能够看到电话信息的,这种可以采集。
第二种是需要扫码才能看到电话信息,这种就不能采集(无法突破二维码扫码的限制)
2.58同城信息用火车采集器采集起来有什么限制?
答:58同城如果长时间采集的话,会封电脑IP,这种设置代理IP即可(代理IP可以从第三方平台购买)
3.火车采集器是不是输入58同城地址就能自动采集?
答:不能,火车采集器需要针对不同的栏目设置规则,因为每个栏目采集规则不同,只有针对不同栏目相对应的设置规则,才能精准采集
利用火车采集器如何让你“时薪”暴涨
作者:dong 发布于:2018-8-13 9:12 Monday
朋友少杰最近刚进了一家房产公司,老板交代给了他一项任务,让他去采集58同城的房产信息。
说实话,接到这个任务的时候少杰心里是一点准备也没有的,也并不认为这是一件很困难的事,毕竟就只是复制粘贴吗,一点技术性含量都没有的工作。
然而,很快,他就为他的轻视付出了代价。
假设一个商品他需要1分钟时间搞定,以上作业全部完成大概需要500分钟,接近10个小时。
很多人在刚进入职场的时候会遇到这种事情,老员工或者老板把这种重复劳动又对成长毫无价值的工作扔给你做。
当你牺牲了周末陪女朋友逛街嬉戏的时间,然后一个一个将这些商品复制粘贴到表格里交给老板看过后,你以为有什么改变?不,老板看过了,就没有然后了。
因为这只是一件谁都能干的事而已,即使它也是一件繁琐到谁都不想干的事。
接近10个小时的重复性工作,压力真的会累到压垮你。负面效果非常多,可以说是挑战人体极限了。
不仅仅是心理视觉上的疲劳,某权威期刊的一份研究报告指出,"重复性压力伤害(Repetitive Strain Injury)"的病患,是因为肉体过度劳累而造成的,而非心理压力导致的。过度劳累带来的不仅是心理疲劳,还有可能造成身体上无法逆转的伤害。
这种重复劳动做上10分钟,大多数人也就认了,但是做10小时,估计精神的疲惫需要很长时间才能恢复过来。
何况10小时可能还不够,事实上到了后期,1个条目1分钟的速度是几乎不可能实现的。
那么换个思路你能有什么办法呢?
在《绣春刀》中,主角的师兄周一围说过一句经典名言:“这是我的手足兄弟至爱亲朋啊,要加钱。”
敲重点:加钱!!!
很多事情,你之所以找不到人帮你做,无非就是,没加钱或者钱不够。
是的,没有什么是钱不能解决的问题。除了重复性的复制粘贴外,你还有一种方法能解决这个问题,那就是利用爬虫技术,但少杰说,他不会爬虫该怎么办?
于是我向他推荐了火车采集器——不需要会Python,无需码代码,便可采集全网信息的数据采集器。
以采集58同城泉州租房信息为例,入口网址为:58网站地址
设置好采集网址:
经过几步操作过后就能发现采集租房信息根本都不是事儿,而这仅仅只需您每天两块六毛钱的最低消费。
敢于豪赌博人生,深谙世道会做人。
我们可以想过一个问题,为什么老板不自己做这件事呢?
答案很简单,因为他的时间比你宝贵,所以他把重复劳动交给你来做。
那么这时候你有2个选择:
如果你还有手下,如法炮制,把这事情交给你的手下来做。
在公务员系统中,这种事情就经常发生。一层压一层,最后让小兵来完成局长应该完成的无聊/繁琐的工作。比如点一些无聊的组织规定的学习网页之类的工作,BOSS们一般是不会亲力亲为的。但是这样你就永远只是一个无能小兵,别提如何走上人生巅峰了。
很多人应该听过穷人和富人的故事,富人送给穷人一头牛帮他致富,穷人却在一次次的妥协中将牛卖了换成羊涮羊肉,把羊卖了炖鸡吃,到最后仍然一贫如洗。
很多穷人都有过梦想,甚至有过机遇,有过行动,但要坚持到底却很难,性格形成习惯,习惯决定成功。一个成功的人应该学会利用时间,如何用最快的时间完成最多的工作。
火车采集器它不能带你走上人生巅峰,也不能帮你摆脱人生的困境,真正能带你走上巅峰的只有你自己经过长久考量下的深思熟虑,个人眼界的宽广才是决定你人生高度的决定因素。
最后,让小采打个广告哈,想要购买火车采集器的朋友,在官网下单记得报小采的名字哦!
技术无罪,解析爬虫技术带给我们生活中哪些改变!
作者:dong 发布于:2018-7-31 14:07 Tuesday
每到节假日,小采的朋友圈里总是会看到这样的照片,并且还配上一段“麻烦帮我点一下,,,之类语法可能会变语意永远相同的类似语句。”
每当这个时候我就知道陶子又要抢回家的火车票了。
不知何时,每年都有那么几天,小采的朋友陶子总会心情焦虑,坐立不安,按他的话来说:“去火车站抢票是永远不可能去的,也就只能靠着抢票软件维持生活了。”这两年他换了不止数款抢票软件,可以说是抢票行家了。
作为家中独子,我很能理解他的感受。
但作为一个有梦想的运营喵,我不禁对这种抢票软件产生了浓浓的兴趣。
这分明代表着——“话题!!!”
今天我们就从抢票软件开聊,谈谈爬虫技术带给我们生活中哪些改变!
众所周知,抢票软件的背后,藏着无数个叫做“爬虫”的小东西
喏,它们长这样:
等等,好像有点不对劲,应该是这样的爬虫:
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
爬虫就像是一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在互联网这栋四通八达的大楼里不知疲倦地爬来爬去。
现在我们的身边的网络处处都可见这些小可爱的影子,它们善恶不同,各怀心思,越是利益相关的地方,就越是布满了爬虫。
图片来源:云鼎实验室
在出行方面出行行业中爬虫的占比最高(20.87%)。在出行的爬虫中,有89.02%的流量都是冲着 12306 去的。这不意外,全中国卖火车票的独此一家别无分号。
你还记得被这样的人脸验证码支配的恐惧吗?
像这种“神坑”的验证码并不是为了为难我们这些老实本分买票的人的,正相反,它研发的目的就是为了阻止爬虫(也就是抢票软件)的点击。上面说过,爬虫是一个死板的东西,它只会简单的机械点击,它不认识白百何,所以很大一部分爬虫就被挡在了门外。
但是“道高一尺魔高一丈”,光凭这样显然是无法阻挡爬虫的脚步的,现在市面上盛行的各类抢票软件就是明证!
有一种东西叫做“打码平台”,你可以了解一下。
打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好哪个是白百何哪个是王珞丹,然后再把结果传回去。总共的过程用不了几秒时间。
当然,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了这张图是“锅铲”,那么下次这张图片再出现的时候,系统就直接判断它是“锅铲”。时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
“12306”为什么不做措施防止采集呢?你可能会问。
你知道每年过年之前,12306 被点成什么样了吗?
公开数据是这么说的:“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”这还是加上验证码防护之后的数据。可想而知被拦截在外面的爬虫还有多少。
总结:所以不是不想防,而是防不胜防啊!,真是个悲伤的故事!
说完出行难,我们再来谈谈社交吧。
上图是爬虫经常光顾的微博地址。
这里的代码其实指向了微博的一个接口。它可以用来获取某个人的微博列表、微博的状态、索引等等等等。
获得这些,能搞出什么骚操作呢?
“僵尸粉”的上班流程了解一下——你想想看,如果我能随心所欲地指挥一帮机器人,打开某人的微博,然后刷到某一条,然后疯狂关注、点赞或者留言,这不就是标准的僵尸粉上班儿的流程么。。。
更甚者,还可以利用这套流程发家致富:
1、我是一个路人甲,我的微博没人关注,我用大量的爬虫,给自己做了十万人的僵尸粉,一群僵尸在我的微博下面点赞评论,不亦乐乎。
2、我去找一个app开发公司,跟他说:你看我有这么多粉丝,你在我这投广告吧。我帮你发一条app的注册链接,每有一个人通过我的链接注册了游戏,你就给我一毛钱。广告主说,不错,就这么办。
3、我发出注册链接,然后没人点。。。
4、不慌,我让十万爬虫继续前赴后继地点击注册链接,然后自动去完成注册动作。
5、我躺在床上,笑眯眯地数着赚来的一万块钱。
(以上故事纯属虚构,如有雷同,具体操作也会更复杂,请勿随意模仿。)
再者,你平时点开的大众点评和美团等美食软件上的点评信息是真的吗?
答曰:部分是真,部分是假,真真假假谁又说得清呢?
造成这种情况的还是爬虫:
很多刚上点评的商户,信誉值不高,就会用爬虫来模拟留言、点赞,刷高自己的信誉值。
同理,淘宝、京东等电商用户也是如此。
所以,这些平台都对这种刷单行为深恶痛绝,因为一旦松懈平台的信誉值就完蛋了。
很多人做过网站,应该知道“权重值”的意思,那么怎么提升权重呢?
你可能了解,搜索引擎决定哪个网页排名靠前,(除了广告以外)主要一个指标就是看哪个搜索结果被人点击的次数更多。
既然这样,那么我就派出爬虫,搜索某个特定的“关键词”,然后在结果里拼命地点击某个链接,那么这个网站在搜索引擎的权重里自然就会上升。这个过程就叫做 SEO(搜索引擎优化)。
我就举个例子,随意搜索一个关键词,它排在前面的网址,有可能就是经过 SEO 的。作为任何一个搜索引擎,都肯定不允许外人对于自己的搜索结果动手动脚,否则就会丧失公立性。它们会通过不定期调整算法来对抗 SEO。
所以才会有那么多的悲剧,百度医疗竞价排名害死人事件不知道的同学可以去了解一下。
SEO是一把双刃剑,它可以救人也可以害人,技术不分好坏,善恶只在掌握它们的人手上。
说了这么多,我猜你会有几个疑问
这个问题还真的不简单。
我打开中国网安第一大法《网络安全法》仔细看了半小时,在里面没有发现“爬取网络公开信息被认定为违法”的条款。
于是我又继续搜索,发现了几条司法解释:
未经授权爬取用户手机通讯录超过50条记录;
未经授权抓取用户淘宝交易记录超过500条;
未经授权读取用户运营商网站通话记录超过500条;
未经授权读取用户公积金社保记录的超过50000条的。以上这些情况可以入刑。
但是仔细看看,如果我只是用机器代替了人的手点击鼠标敲击键盘,接触的都是公开信息,并不触犯这些司法解释。(这只是我简单查询后的结果,不代表任何官方意见)
因此得出结论,只要不触碰禁区,爬虫并不违法。
举个例子:在排名第五的行政领域:
在中国,我们的信用体系还很不完善的情况下,骗子和老赖在犯罪后还可以继续蒙骗新人。所以才催生了爬虫收集法院公告,形成民间信用记录的服务。这项服务大大减少了网络犯罪的犯罪率。
所以,最后,我想说技术无罪,我认为善的定义就是有利于人类。刘震云说的一段话很好:在生活中,有的是吃人的人,有的是被吃的人,但是这两种人可以转化,羊渐渐可以转成狼;狼呢,渐渐地到一定阶段也可以转变成羊。
就好像是善恶一样,没有绝对的善恶,你这人特别的善良,那也有特别不善良的地方。最可笑的还有许多人,在羊向狼转化的时候,转化成一半,停在那儿了,半羊半狼,自己也闹不太清楚,到底是羊还是狼。
爬虫并没有思想,你想生活在一个怎样的世界,就要用自己的理念去实现!
火车浏览器7.0版本正式上线啦!超多实用新功能,升级续费看这里
作者:dong 发布于:2018-7-31 14:06 Tuesday
嗨,大家好,我是你们的小采君
记得月初的时候小采写了关于火车采集器和火车浏览器的区别,可后台还是有人弄不清楚火车浏览器的区别?所以今天我就再给大家介绍一遍关于火车浏览器。
火车浏览器:一款可视化的自动脚本工具,可以通过设置脚本的点击、判定、循环、跳转等流程,实现自动登录,识别验证码,抓取和发送数据等一系列操作。每一步流程都可以自由组合,完全自定义操作,功能无限级扩展。
1. 需要登录采集,验证码识别,采集中需要判断的
2. 网页中内容是通过ajax或是js加密后显示出来的
3. 通过网页群发或是营销,类似网页版按键精灵
不止是这样,火车浏览器还能做到更好!
七月末,小采告诉你一个好消息,火车浏览器7.0版本全新突破,更加优良的操作体验,更简单方便的快捷操作,更加具有创新意识的插件DIY设置狂热来袭!
让你自觉更新,学习使用起来也毫不费力!
1
旧版本:火车浏览器旧版界面将脚本编辑器和项目管理器分为两个文件,运行时需要先打开脚本编辑器编辑脚本,在编辑好脚本后,再打开项目管理器来运行脚本。这样就需要同时打开两个软件,繁琐且更占内存。
新版本优势:将脚本编辑器以及项目管理器合并为一个软件界面,避免软件多开,方便操作。入眼更清爽,颜值也更高!
2
旧版本:无分组功能,脚本数量过多时,管理混乱,导致后期查找时极为麻烦。
新版本优势:新增分组功能,归类脚本更轻松,再也不怕脚本过多查找麻烦了。
3
旧版本:脚本列表及编辑页面同框,当脚本数量过多时,编辑脚本的页面相应地就变窄了。
新版本优势:清爽的页面区分设计,将列表页及编辑页面分离。脚本列表显示脚本的分组信息以及脚本名称信息,编辑脚本的时候,双击脚本名称即可自动跳转到脚本编辑区,更加符合人体视觉感官享受。
4
旧版本:在旧版本中插件是一个步骤”外部插件”,需要在外部插件中选择插件列表然后保存才能使用
新版本优势:每个插件都作为一个单独的步骤显示,并且插件的配置直接就显示在步骤中,重点是火车浏览器还自带了很多实用性的插件,比如滑动验证码插件,飞蚁代理,中文分词,以及一些示例插件。调用更加方便,默认开发示例代码,开发更灵活。
PS:火车浏览器7.0版本帮助文档可以直接在界面中显示,查询帮助更便捷了!
怎么样,是不是很心动呢?
众所周知更新软件版本通常会遇到两大阻力
1、学习成本
2、时间成本
常年使用某一版本形成习惯可能是真的不愿意再花时间去尝试别的版本的,万一真的得用的时候找不到那个曾经很常用功能的位置那多尴尬,所以很多人就不愿意去尝试使用新的版本……
好嘛,突然有一天发现新版本有一个很好用的功能或者旧版本在有些方面不能满足要求,那么……安装新版本需不需要安装包?……由此一连串的问题都得自己去解决。
可在这里学习成本与时间成本都不再是困扰!火车浏览器致力于让用户用的更省心,用的更流畅!
首先:学习成本上讲,火车浏览器7.0版本与历史版本一脉相承,不存在太大差异性问题。
其次:时间成本来说,本次优化,简化了用户操作流程,更为用户的工作生活增添不少便利。
最后爱心小贴士敬上(新版本升级续费方式):
点击火车采集器官网进入我们官方主页
在主站登录后,鼠标点击个人产品中心
找到续费/升级按钮,一键点击即可完成续费升级操作
另:活动日期仅剩两天,手快有手慢无!
活动时间截止七月底,速来抢购
合肥乐维信息技术有限公司十周年庆典
活动正在进行中,更有豪礼相送
点击合肥乐维信息技术有限公司十周年庆典活动,即刻到达活动页面,领取老用户专享续费升级优惠券,立享最低5.8折起超额钜惠!
心动更要行动,采友们赶快点击阅读原文,下载火车浏览器7.0版本先睹为快吧!
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。