花瓣网—瀑布流数据采集思路详解

作者:dong 发布于:2018-4-2 17:48 Monday

上一期我们讲了如何利用火车采集器采集手机app中的数据信息,小伙伴们不知道看完之后有没有自己手操一遍呢?小采在后台整理留言发现,很多采友都对网站瀑布流数据采集的思路不甚了解,所以今天我们就向大家介绍一下关于网站瀑布流数据的采集思路吧。

1



瀑布流,又称瀑布流式布局。是比较流行的一种网站页面布局。

视觉表现为参差不齐的多栏布局,随着页面滚动条向下滚动,这种布局还会不断加载数据块并附加至当前尾部。

用户一眼扫过的快速阅读模式可以在短时间内获得更多的信息量,而瀑布流里懒加载模式又避免了用户鼠标点击的翻页操作。

错落有致,定宽而不定高的设计让页面区别于传统的矩阵式图片布局模式,巧妙的利用视觉层级,视线的任意流动又缓解了视觉疲劳,同时给人以不拘一格的感觉。

切中年轻一族的个性化心理。所以这种页面布局在现今饱受欢迎。

那么如何采集瀑布流数据呢?

今天我们以花瓣网为例,向大家解说一下

花瓣网—瀑布流数据采集思路

2



1. 拿到网页后,分析网页的形式,得出网页为瀑布流形式,需要通过FIDDLER抓包获取真实地址

HTTP://HUABAN.COM/EXPLORE/UISHUJU/?JF22V0AV&MAX=1356497171&LIMIT=200&WFL=1

修改下LIMIT参数为200,这样采集器可以获取200个列表页。

3



2. 编写网址采集规则

4



3. 获取列表页后,设置内容采集规则

图片采集用到了商业版的功能,内容添加前后缀。

注意事项:这个网页使用瀑布流形式,需要抓包获取真实地址

FIDDLER抓包教程HTTP://FAQ.LOCOY.COM/Q-755.HTML

抓包工具小伙伴们可以自行百度下载安装,操作很简单。

好了,不知道小伙伴们有没有看懂呢?不管会不会,回去点开火车采集器先跟着教程做一遍吧。实际操作之后,你就会发现原来瀑布数据采集并没有想象中的那么难。

 

 

标签: 瀑布流

评论(0) 引用(0) 浏览(6618)

采集网页数据生成自定义EXCEL表格有多简单?

作者:dong 发布于:2018-3-16 17:49 Friday

如何采集网页数据生成自定义EXCEL表格?



当然是用火车浏览器啦!!!



营销人员常需要获取行业最新信息,进而处理成自定义表格,使用火车浏览器可实现采集信息到生成自定义表格一步到位。

可视化自动提取数据,可自动定时更新的超强功能设计,确保能让您及时掌握行业最新数据。

小采妹



本期分享采集安居客合肥地区最新二手房网页数据自动生成EXCEL表格为例。



1


步骤1:打开火车浏览器→右击→点击浏览器→打开网页→输入网址并保存





  • 右击测试运行,可以在软件页面看到打开的网页的页面





2


步骤2取出每个房源中需要的信息右击→元素操作→单次提取→保存

(提取信息,需要写XPATH提取规则,HTTP://BBS.LOCOYPOSTER.COM/FORUM.PHP?MOD=VIEWTHREAD&TID=541&HIGHLIGHT=XPATH)




  • 保存信息到LIST变量,然后测试提取,结果如图:





3


步骤3:对采集的信息进行处理 右击→元素操作→循环





4


步骤4:对单个源码进行处理 让数据保存到相应的变量 右击→变量处理→变量处理



  • 先对源码进行处理保存到楼盘名这个变量


(1)先打开变量管理→单个源码进行分析




如下图所示:




  • 需要的信息在<SPAN TITLE="和”> 源码之间.

  • 所以写内容截取,设置如下图:






点击确定→点击保存→测试





  • 得到需要信息;(之后其他几个变量,处理过程原理相同。)

  • 最终得到每个需要的信息:





5


步骤5:把采集的信息保存到表格中

需要创建一个数据库文件

如图设置:




(2)写一个查询数据库语句 (目的:为了以后更新数据)





(3)通过变量比较,来判断是否入库右击→逻辑运算→变量比较→保存。





  • 若是则不插入数据,不是则插入数据到创建的数据库中.






这样上个页面就采集完成,接下来采集下一页


步骤六:右击→文件操作→导出EXCEL






  • 右击→元素操作→点击→保存






  • 整个流程如图:





  • 采集后部分数据如图:





好了以上就是今天的所有教程,技术小哥哥小姐姐你们学会了吗?不会的可要收藏一下方便以后回看哦。小采会继续推出一系列教程,让大家更了解我们火车家族的使用方法呢!



PS:免费版脚本只能运行30分钟,无法使用项目管理器,需官方提供技术支持,如需IP代理,脚本定制,公众号里咨询小采或点击下方原文咨询客服。

标签: 火车采集器;

评论(0) 引用(0) 浏览(15632)

教你如何用火车采集器采集手机app中的数据信息

作者:dong 发布于:2018-3-16 17:27 Friday

随着移动互联网的迅猛发展,各类应用如雨后春笋般涌现出来,人们对智能手机依赖度远超过PC电脑。

对于移动端APP数据内容采集这方面的需求也越来越多,而APP数据采集却是一个难点。

 

那么对于移动端APP的内容,利用火车采集工具如何采集呢?


 

 

1.操作思路:

火车采集器可以像采集普通网站那样采集APP的数据,因为移动APP通过HTTP协议与服务器进行交互的。

网页抓取工具火车采集器是抓取HTTP以及HTTPS请求中的内容。

APP也通过这两种请求类型与服务器进行交互的,这需要分析出接口地址及参数的含义。

 

 

2.步骤

1)先将要分析的APP安装到手机上。

2)通过局域网将手机连接到PC。

3)打开抓包工具,先选择网络适配器为手机设备对应的项目 (一定要选对,否则后面捕获不到数据)。

4)启动监听。在手机上操作APP,打开想要采集的页面,此时抓包工具就会显示出该操作触发的网络请求和应答。

5)分析抓包工具监听到的HTTP报文(细心+耐心=成功)。

 

 

3.案例:

下面以京东APP为例来介绍具体怎么操作

(1)首先手机上要安装了APP,并且将手机与PC连接传输。

 

 

(2)打开抓包工具,查看FIDDLER的端口号,例下图:

(3)查看本地局域网的固定IP,例下图:

 

 

(4)在手机中设置代理服务器,将端口号以及IP写入。

如下图所示:

如上图在手机中设置好后,就可以将FIDDLER保持CAPTURING的状态.

然后操作京东的APP,打开想要采集的页面,此时抓包工具就会显示出该操作触发的网络请求和应答。

具体情况如下图所示:

 

 

 

4.然后我们就可以在火车采集器中分析请求写规则,并测试该HTTP是否可以采集。

这样利用网页抓取工具实现APP采集的步骤就基本完成了,大家可以多试几次,增加下操作熟练度。

不过APP和网页一样,我们看不到的数据是采不到的,比如很多人问的后台用户数据如何获取,像是这类信息统统是无法采集的。

 

好啦,今天的教程就到这里啦,有什么想要提问的盆友们可以在下方留言。我们会综合意见选中提问人数最多的问题开设下一期专题,大家敬请期待呢!

 

有疑问的可以在后台咨询小采或咨询客服。懂技术的小哥哥小姐姐都超帅超美的,真的是很棒呢!

图片来源于网络,如有侵权,请联系删除

感谢您抽出时间来阅读此文

做数据采集,我们是专业的!

标签: 火车采集器;

评论(0) 引用(0) 浏览(13197)

今年双11,您有5次半价抢购的机会!

作者:dong 发布于:2017-11-4 15:42 Saturday

因为没有准备国庆节的活动,被大神们在后台吐槽了整整一个月,心好累。这次再不给出最优惠的力度,小采就真的无颜面对你们啦~来,切入正题,看看火车头为你们准备的双11福利~

本次双11活动分为四趴,每一趴都相当给力,别着急,今天是预告,活动11月6日正式开始哦~~


活动一:每天11点11分半价开抢


11月6日-11月10日每天上午1111分准时开抢半价优惠码!半价优惠码类别如下:

图片.png

注意哦,数量真的有限,强烈建议您定个闹钟提前锁定活动页面,而且优惠码有效期仅为1天,抢到请立即使用,过期作废!!!


活动二:预付100抵200


通过活动页面的抵用券购买通道预付100元即可在购买软件(除采集器基础版外)时直接抵扣200元现金,预付时间是11月6日-11月10日,使用时间是11月11日-11月20日,付款前联系客服修改价格即可~

关于活动二,小采还没有说完,切记啊小伙伴们,这次活动二是可以与活动三同享的!!!真正的折上折!然鹅活动三是什么内容呢?请往下看 

 

活动三:500个优惠码,低至6.8折

11月11日至20日按照下面领取方式获取新购优惠码

图片.png


领取方式

第一步:点击顶部蓝色或识别下方二维码关注火车采集器微信公众号,小采在公众号等你哟~

扫码关注微信

第二步:在公众号菜单栏选择个人中心——绑定账号(优惠码将发放至您绑定的账号,未注册账号的请先在官网www.locoy.com注册账号)

第三步:微信公众号回复“双11”领取您需要的优惠码。

 活动四:老用户专享,7折升级续费(领取时间:11月11日至11月20日


双11怎能少了老用户的福利呢,如果您没能抢到每天11点11分的半价升级优惠码,就请移步活动四,这里有7折升级优惠码,仅需支付版本差价部分的7折就可以体验更高版本的软件了,无需重新购买高版本,进击中的大神又可以解锁新功能啦~

同样的,需要续费的亲们也可以享受7折优惠,目前没到期也没关系,是直接在到期时间的基础上续延的哦~

 

一口气说了这么多,您找到最适合您的领券姿势了吗?小采觉得,咱们与其剁手在吃喝玩乐上,不如先整个高效的采集工具!因为它能帮助我们真正掌握数据领域最基本的技能,开辟工作中的捷径,全面提升个人能力,总为他人鼓掌不如享受他人的掌声,大神们觉得呢?


最后,猛戳下方蓝字进入活动页面吧!

赶赴双十一现场

评论(0) 引用(0) 浏览(13028)

【通知】火车采集器V9.6发布

作者:dong 发布于:2017-9-14 14:55 Thursday

更新:
1: 多级网址列表,对于列表名增加重命名功能以及上下调整的功能。
2: 修复SqlServer数据库格式下,未能正确显示采集数量的问题。
3: 修复在新增标签时,若上一个编辑为固定格式数据,则新增的标签显示内容错误的问题。
4: 修复数据包登录中,若登录失效,未能自动重新登录的问题。
5: 修复FTP上传失败后,本地数据也被删除的问题。
6: 修复边采集边发时,文件上传FTP失败的问题。
7: 优化Excel保存时,对于ID,PageUrl显示列的位置。
8: 修复任务不能多选操作的问题。
9: 边采集边发布时,最大发布数的功能调整(原:最大发布数无效。 现:最大发布数生效,且在任务完成后,不会将以前的未发布数据再次发布)
10:修复对于存储过程语句,当数据为空值时,意外判断为“语句错误”的问题。
11:二级代理功能,修复定时拨号失效的问题。
12:二级代理功能,定时获取API功能优化,重新获取时,会自动删除上一批数据。
13:批量网址增加数据库导入的模式
14:导出到文件时,对于不合理的错误命名增加提示。
15:导出规则时,对于规则名称过长的规则,增加提示的功能。
16:规则编辑时,对于“包含”、“不包含”数据,复制粘贴多行时,会自动区分为多个数据。
17:添加对于芝麻代理的合作支持。


下载地址:http://www.locoy.com/download

评论(0) 引用(0) 浏览(14674)

Powered by emlog