火车采集器12岁了 十二周年庆 1000个优惠码
作者:dong 发布于:2017-8-8 15:45 Tuesday
2005年,火车采集器第一版由乐维创始人火车头对外分享发布,彼时吸引了第一批采集器的口碑用户。也是从那时开始,用户们习惯称之为火车头采集器。
2017年,不断颠覆过往、坚持优化创新的火车采集器已经迎来十二周年。十二年风雨探索路,十二载辛勤耕耘途。十二年里,我们不忘初心,在大数据的道路上不断探索、展望、前行……
感谢你们的一路支持与厚爱,也感谢所有的批评与建议。我们将拿出更好的产品与服务,让时间、经历和优惠码成为火车采集器无言的告白。
恰逢火车采集器十二周年庆,新用户购买软件6折起!老用户升级续费全部6折!真真真真真的手慢无!
活动时间:8月8日—8月18日
第一步:点击顶部蓝字关注火车采集器微信公众号 。
第二步:在公众号菜单栏选择个人中心——绑定账号(打开官网登录用户中心——手机扫描个人中心显示的二维码即可完成绑定)优惠码是直接发放至您绑定的账号,所以未注册账号的亲请先在官网www.locoy.com注册账号。
第三步:微信公众号回复“十二周年”领取您需要的优惠码。
最低6折起购,还有下单立减120元,大神们注意,领取后只可用于购买优惠码对应的软件产品。不可用火车浏览器优惠码购买火车采集器呢~且每人仅可领取一张,千万不要领错哦~
老用户6折升级续费优惠码,数量有限,领完为止~
十二周年庆,我们团队的小伙伴们也忍不住要真情流露啦,下一个十二周年,希望你们和我们都越来越好,快来看看每天和你们对接的负责人是哪位~
你们眼里只看得到两位女神对不对~我也是~(~o ̄▽ ̄)~o 女神温馨提示:看完快去抢优惠码!
抢优惠码链接:http://www.locoy.com/activity/zhounianqing
火车浏览器实现关键词批量搜索
作者:dong 发布于:2017-7-29 17:34 Saturday 分类:官方公告
何为模拟浏览器操作呢?
即我们平时手动使用浏览器时会进行哪些动作,火车浏览器软件就可以进行模拟自动实现这些动作,继而进一步实现对页面中元素的操作。
比如我们会使用浏览器打开网页,刷新网页,调整页面大小等,这些在火车浏览器软件中是如何实现的呢?我们打开软件的脚本编辑器来学习一下。
软件的脚本编辑器中有专门针对浏览器的流程选择,具体说明如下:

标签页操作
我们可以创建标签页和切换标签页,该操作能够实现在一个脚本中打开多个页面,和人工手动操作无异。
打开网页
想要抓取数据就先要打开网页,该操作用来模拟网页打开的步骤。首先需要填写要打开的网址:
①打开网址:填写需要打开的网址。(可以调用文本型变量:将需要打开的网址保存在文本型变量中即可调用。 注意:这里只能调用文本型变量,如果是list变量,则需要循环遍历list变量后保存在文本型变量中才可调用。)
②来源地址:模拟http请求的referer网址,即告诉服务器我们是从哪个页面链接过来的,此处一般可以不用填写。
③Cookie:可以用fiddler抓取页面的cookie(登录信息),保存在文本型变量中,直接调用该变量。
④智能判断网页是否加载完成:勾选则可启用该功能。
⑤超时时间:设定一个时间,若是在此超时时间内,网址仍没有加载完成,就强制结束打开网页这一步,继续运行下面的步骤。
⑥Windows认证:访问页面时有时会需要身份认证,需填入用户名密码,比如在登录路由器时,就需要使用这个功能。
Cookie操作
即在火车浏览器中进行cookie的导出、导入或者是清除cookie。
①导出cookie到文本:将火车浏览器中cookie导出并保存到文本中。
②导入文本cookie:将文本中的cookie导入到火车浏览器中。(注意:此时文本中的cookie必须是火车浏览器导出的cookie格式。)
③导入字符cookie:导入火车浏览器中接收的cookie格式。
④清除cookie:即清除火车浏览器中的cookie。
使用场景
①网站需频繁登录:遇到此类网站,可以将登录后的cookie导出。然后下次运行时,可以直接导入登录后的cookie,避免再次重复登录步骤。
②直接退出登录账号:想要直接退出,可以设置清除cookie,则浏览器中的登录信息都会清除。
注意:如果是使用fiddler抓包的cookie,则不能在本步骤使用。可以在打开网页中调用fiddler抓包的cookie。
设置浏览器选项
对浏览器的UserAgent、代理等一些基本参数进行设置。
①UserAgent:模拟浏览器信息。可以选择常用useragent中的示例,也可以自己找真实的UA填写。这里只可以调用文本型变量。如果存储大量的UA在list变量中,需要循环遍历list保存至文本型变量,然后这里再调用该文本型变量。
②代理:这里支持http以及Sock4、Sock5类型的代理。
格式形如:http://user:pass@ip:port (socks4://user:pass@ip:port)如果没有用户名密码,那么格式形如http://:@ip:port,例如http://:@127.0.0.1:8888。
如果IP代理地址存放在文本中,可以使用文本读取,读取IP地址保存至list变量,然后循环遍历list变量保存至文本型变量,再调用该文本型变量用于设置浏览器代理,这里需要注意代理的格式需要处理成火车浏览器默认的格式。
③弹出窗口:勾选则允许自动弹出新的标签页。
滚动条设置
滚动当前页面,可设置滚动到顶部、滚动到底部、滚动到指定元素位置的等。针对一些页面信息较多,关键信息需要进行下拉才会出现的情况。
①滚动到指定的元素位置:需要找到指定位置的xpath。
②滚动到指定的坐标:此功能需要结合“设置浏览器大小”功能使用,先确定界面大小,这样在运行过程中,指定元素的坐标不会发生变化。在设置浏览器大小后,将鼠标放在滚动目标元素处,火车浏览器左下角会出现该元素的X、Y坐标,将其写入步骤即可(注意:一定要先设置浏览器大小,再取元素坐标。)
刷新页面
即刷新当前页面。
后退一步
顾名思义,即后退到上一个操作界面。
网页截图
在当前页面截图并将图片保存在本地。截取方式可以选择截取整个页面、按照区域坐标截取,按照xpath截三种。
①截取整个页面:指定图片保存路径、文件名保存格式,保存文件路径(是将图片保存在本地的路径再保存至变量,此处可以为空)。
注意:保存格式可以选择原文件名以及变量、日期等命名方式。格式结尾要指明图片格式后缀,如jpg、png 等图片格式。如文件名保存格式中填写的名称呈现绿色,则需要在前面加上转义字符 ”\“,如下图。
②截取指定区域:可以借助坐标来截图某一元素。首先找到元素的任意区域xy坐标点,如下图,鼠标放在该区域中,则在火车浏览器左下角,会出现相应坐标,将坐标填在步骤里,则可截取该元素的图片。
注意:在使用此方式时,依旧需要结合“改变浏览器大小”步骤,设置浏览器界面大小,以免运行过程中界面大小变化,导致设置的坐标无效。
③截取指定xpath:截取指定xpath元素内的图片。首先要分析出需要截图区域的xpath ,然后将xpath填写在步骤中,即可截取该图片。
页面信息
对当前页面中的有用信息进行提取,比如当前页地址,当前页登录信息等。
浏览器窗口大小
此功能可以更改浏览器显示的窗口大小。在前面的滚动到指定坐标和截取指定区域功能中已经介绍过,结合此功能可以保证页面中的x、y坐标不变,能够正确点击到设定的坐标。
弹窗信息
操作中如出现alert弹窗,则无法通过xpath获得内容,所以可以通过此步骤获取弹窗信息。注意:只有当整个脚本在右键测试运行,或exe以及项目管理器中正式运行时,才能取得alert中的内容。单个步骤右键测试运行时,是无法获取其中内容的。
上面的这些操作通过火车浏览器都可以自动实现,当我们需要反复进行这些操作的时候,比如,批量打开网页进行群发等操作,就能直接用软件来执行,节省大量的人力和时间。
大数据是怎样帮互金平台留住你的?
作者:dong 发布于:2017-7-21 16:17 Friday 分类:官方公告
提起互联网金融,人们当下的态度可谓又爱又恨,因为口口相传的“致富”和“跑路”都不绝于耳。在问题平台的数量(3795)已经快达到正常平台数量(2114)两倍之多、且盈利平台尚不足百分之一的现状下,撑到今天的互金平台都不容易,同时,监管机构仍在不断完善整改机制,若不主动退出就必须尝试破壁。
关注大数据观察网(微信公众号:shuju_net)了解更多精彩资讯
进入互金监管整顿年之后,曾有专家预言,现有的数千家互金平台,最后可能仅有三分之一能够稳步发展下来。于是,越来越多的网贷企业开始将提高风控、降低坏账、提高运营效率放在企业发展的首位,而这最后的救命稻草都需要依靠大数据技术。
大数据风控:降低风险=提高效益
对于消费金融、和企业借贷来说,风控能力直接影响着企业的成败。我们并不是在过分强调风控,但是当风控开始变为企业重心的时候,一定也是企业做大或转型的重要时刻。在这个节点上,避免发生风险这种小概率事件,安全且不冒险地稳步发展起来就已经是成功。
那么举足轻重的风控又是如何借助大数据的呢?
一个成熟的风控系统,应该包含充足的信源、完善的分析模型、丰富的维度,可靠的分析指标等。
看看大家都是怎么做的:
身份验证:以我们火车采集器团队曾经服务过的一个大数据项目为例,合作方是金服企业,所需的身份验证是基于企业信息的大数据,也就是说需要全国企业的多维度信息。我们团队最终集合的数据包括:企业工商资料;企业股东、高管;企业变更信息;潜在风险(失信被执行人、法院裁判文书、经营异常记录);知识产权(商标、著作、专利、域名);自媒体(微信、微博);对外投资;企业年报;经营信息(产品、网店、招投标记录、招聘);媒体报道等。
几十余个维度的数据整合后,我们其实已经可以看到一个完整的企业画像。所以即使贷款人是我们不熟悉或者从未听闻的公司,也可以在短时间内对其了如指掌,个人贷款也同样如此。
还款意愿和能力分析:主要是对贷款方财务方面的细致分析。还是以企业为例,比如财务报表分析(第一还款来源、现金流、质押担保的价值及变现难易程度等);是否有知名且固定的商业合作伙伴;违约成本(企业经营负担、社会声誉等);政府或银行留存的记录等。
数据建模:积累数据打下基础,下一步要做的是构建模型。建模的技术主要包括logistic回归、决策树、普通线性回归、分层分析、聚类分析、时间序列等各种机器学习算法。而我们之前整合的每一个数据带入模型中都会是特征的向量,其实许多细微的特征都会是模型元素,细微到半夜发朋友圈、社交评分高低、邮件打开时间、购买咖啡频率等这些我们可能意想不到的特征。但这些数据从哪里来?别忘了,还有BATJ啊。
大数据挖掘客户
互金领域同样遵守二八定律,那么对于互金平台来说,能够带来80%存款的这20%的客户才是真正的目标客户,他们有什么样的行为习惯呢?根据职业、年龄、学历等一系列客户定位数据来决定平台的营销思路才能更加有效的挖掘客户。
而怎样才能留住他们呢?某平台通过现有客户的大数据分析发现,真正的目标客户往往是在充值5次之后达到一个额度然后稳定留存。就像已经火了好一阵子的共享单车,会制定免费骑5/6次后才开始收费一样,互金平台往往会赠送5次优惠券或红包来吸引客户持续进入,如果预测某个客户已经快要结束业务且留存率不高的情况下,就提前发个红包留住他,挖掘与留住客户都是需要数据作支撑的。
大数据优化体验
我们经常会发现,在信用卡或互金账户的透支额度快要用完时总会收到涨额度的提示信息,这就是基于大数据对我们使用体验进行的优化。如果该客户信用值较高,平台却不作调整的话,可能该客户就会因为需要继续借贷而尝试其他平台。且额度的提升也是根据消费场景返回的数据而定,并非毫无根据的调整。
除了会实时调整的额度之外,秒级放贷也是基于大数据的一大优化。过去很多贷款机构的放贷审核都是通过信审员,近来小采看到一篇信审员的离职自述,放不放款,何时放款、利率多少这些全凭信审员做主的时代早已不复存在,即使在小公司也大多如此,很少再有塞红包求放贷的现象,取而代之的是系统的大数据审核,不足一分钟出具审核结果是互金平台的业务常态,秒级放贷让客户的体验更佳也帮助平台自身提高效率。
大数据、云计算、深度学习、区块链等技术,已逐渐从概念走向落地。线上红利消失和监管严格下的互联网金融企业,转而寄望于通过技术在激烈竞争中生存下来,利用积累的数据,建立模型支持风控和经营决策,或许在不久之后,我们会看到互金领域展现出健康、蓬勃的发展状态。
这次又是谁动了你的物流数据?
作者:dong 发布于:2017-7-7 17:51 Friday 分类:官方公告
当我们网购一个产品后,从物流发货到物流配送完毕的这一过程里,你能想象有多少人(平台)掌握了你的物流信息吗?小采随便翻了翻手机,真的被大数据时代的数据乱象吓到了。我们火车采集器专注数据采集十年,客户曾送美誉“上采天,下采地”,却也从不越雷池半步,这些行业如此嚣张。
首先,卖家会系统地给你发短信:亲爱的xx小主,您购买的xx已通过xx物流配送,不日即可奔入您的怀抱。
随后,电商平台自动更新了你的物流。
过了两天,xx物流给你发来短信:您单号为xxxx的包裹正由xx物流的xxx为您配送,快递员联系电话13xxxxxxxxx。
再然后,支x宝好像怕你看不到似得,又在“我的快递”栏目里再次更新了一遍。
so全程保驾护航,然而,我只是买了一瓶。。。(你猜)
所以给我的感觉是,不断地有陌生人发短信给我说,小采,我知道你最近买了一瓶。。。
然而我的物流信息不仅被快递公司采集,快递柜采集,电商平台采集,为什么连支x宝都可以随意采集?!
所以说,电商和支付平台是一家的就可以随意将信息打通共享咯?难道以后我们购买商品的时候,卖家还会额外推销点其他的,并说“这位亲亲,您还在犹豫什么呢,您支x宝里还有一万块的余额呢~“
“余额没钱?没钱不要紧,因为亲亲您的花呗额度还有九千咧~”
就这还不算完,因为连个人都可以随意采集我们的物流信息了。
何出此言?
大家有没有过类似的经历,你网购了一种产品之后,没几天就收到陌生的短信、电话、微信添加请求甚至是登门拜访,向你推销其他的类似产品?难道现在推荐已经从网页的”猜你喜欢“过渡到线下了吗?谁出卖了你?
是卖家?他们不会傻到把你的信息卖给竞品。
是物流公司?他们有时并不会知道你购买的是何种商品。
答案是物流数据,这支物流黑手大多来自地下产业链。
比如我是卖保健药品的,那我想要知道哪些人群经常购买这类保健品,这很容易,我在电商平台上下单购买一个同类产品,随后我就可以根据我的单号来做推算,很多时候我的上几单或下几单(单号末尾数字递增或递减),都是购买同一家商品的,于是我定期整理出一批单号,交给黑产业链,就可以坐收收件人的信息了,物流期间的所有环节都可能出现内鬼,很多单号信息叫卖仅需0.5元。
比如一个区县一级的快递公司中转机构能够掌握本区域近期所有的物流流转信息,在目前地下经济链条中对个人信息买卖明码实价的背景下,难免有人抵制不住诱惑。
更加狡猾又想省钱且不嫌麻烦的人则会采取这样的做法:根据之前收集的物流单号去查询到派件员电话(因为仅通过官网是查询不到收件人信息的,只能查询到大概的收货地址和派送员信息),主动联系派件员告知他这一单货物信息不匹配,自己才是收件人,那么出于信息核实,派送员会报出收件人的姓名、地址和电话,ok,你的目的达成了。(危险动作,请勿模仿)
真的很可怕。
所以通过很低的成本,甚至是0成本就可以知道你是谁,买了啥,电话号码。就像刚买了房必然会接到装修公司的电话,刚在医院生了娃,必然会有电话来推销母婴用品,婴儿保险一样,我们时常以为自己渺小到全世界都会忽略你,其实不是,全宇宙的骗子、推销员都可以一分钟内认识你的,只要你有钱。
这让小采想起了一首诗,从前的车马很慢,一生只够爱一人。现在的物流很快,一生可以骗很多人。
数据从一堆无人问津的乱码到如今身价倍增,初衷是帮助人们更好的认识这个世界,发现有益规律从而创造价值。
我们现在处在“有数据”与“用数据”的初步阶段,人们已经为它打起了架,也将它玩出了花,但是无论哪一个行业,打破了社会和谐定律,必然要付出惨痛代价,“管数据”已然刻不容缓。
【教程step.13】火车采集器版本选择攻略
作者:dong 发布于:2017-6-22 17:16 Thursday



【东哥福利】火车采集器V9安居客小区信息采集规则分享
【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享
【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享
联系我们
客服QQ:800019423
客服电话:400-8757-060
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。