花瓣网—瀑布流数据采集思路详解
作者:dong 发布于:2018-4-2 17:48 Monday
1
瀑布流,又称瀑布流式布局。是比较流行的一种网站页面布局。
视觉表现为参差不齐的多栏布局,随着页面滚动条向下滚动,这种布局还会不断加载数据块并附加至当前尾部。
用户一眼扫过的快速阅读模式可以在短时间内获得更多的信息量,而瀑布流里懒加载模式又避免了用户鼠标点击的翻页操作。
错落有致,定宽而不定高的设计让页面区别于传统的矩阵式图片布局模式,巧妙的利用视觉层级,视线的任意流动又缓解了视觉疲劳,同时给人以不拘一格的感觉。
切中年轻一族的个性化心理。所以这种页面布局在现今饱受欢迎。
那么如何采集瀑布流数据呢?
今天我们以花瓣网为例,向大家解说一下:
花瓣网—瀑布流数据采集思路
2
1. 拿到网页后,分析网页的形式,得出网页为瀑布流形式,需要通过FIDDLER抓包获取真实地址
HTTP://HUABAN.COM/EXPLORE/UISHUJU/?JF22V0AV&MAX=1356497171&LIMIT=200&WFL=1
修改下LIMIT参数为200,这样采集器可以获取200个列表页。
3
2. 编写网址采集规则
4
3. 获取列表页后,设置内容采集规则
图片采集用到了商业版的功能,内容添加前后缀。
注意事项:这个网页使用瀑布流形式,需要抓包获取真实地址
FIDDLER抓包教程HTTP://FAQ.LOCOY.COM/Q-755.HTML
抓包工具小伙伴们可以自行百度下载安装,操作很简单。
好了,不知道小伙伴们有没有看懂呢?不管会不会,回去点开火车采集器先跟着教程做一遍吧。实际操作之后,你就会发现原来瀑布数据采集并没有想象中的那么难。
标签: 瀑布流
采集网页数据生成自定义EXCEL表格有多简单?
作者:dong 发布于:2018-3-16 17:49 Friday
如何采集网页数据生成自定义EXCEL表格?

当然是用火车浏览器啦!!!
营销人员常需要获取行业最新信息,进而处理成自定义表格,使用火车浏览器可实现采集信息到生成自定义表格一步到位。
可视化自动提取数据,可自动定时更新的超强功能设计,确保能让您及时掌握行业最新数据。
小采妹
本期分享采集安居客合肥地区最新二手房网页数据自动生成EXCEL表格为例。
1
步骤1:打开火车浏览器→右击→点击浏览器→打开网页→输入网址并保存
右击测试运行,可以在软件页面看到打开的网页的页面
2
步骤2:取出每个房源中需要的信息右击→元素操作→单次提取→保存
(提取信息,需要写XPATH提取规则,HTTP://BBS.LOCOYPOSTER.COM/FORUM.PHP?MOD=VIEWTHREAD&TID=541&HIGHLIGHT=XPATH)
保存信息到LIST变量,然后测试提取,结果如图:
3
步骤3:对采集的信息进行处理 右击→元素操作→循环
4
步骤4:对单个源码进行处理 让数据保存到相应的变量 右击→变量处理→变量处理
先对源码进行处理保存到楼盘名这个变量
(1)先打开变量管理→单个源码进行分析
如下图所示:
需要的信息在<SPAN TITLE="和”> 源码之间.
所以写内容截取,设置如下图:
点击确定→点击保存→测试
得到需要信息;(之后其他几个变量,处理过程原理相同。)
最终得到每个需要的信息:
5
步骤5:把采集的信息保存到表格中
需要创建一个数据库文件
如图设置:
(2)写一个查询数据库语句 (目的:为了以后更新数据)
(3)通过变量比较,来判断是否入库右击→逻辑运算→变量比较→保存。
若是则不插入数据,不是则插入数据到创建的数据库中.
这样上个页面就采集完成,接下来采集下一页
步骤六:右击→文件操作→导出EXCEL
右击→元素操作→点击→保存
整个流程如图:
采集后部分数据如图:
好了以上就是今天的所有教程,技术小哥哥小姐姐你们学会了吗?不会的可要收藏一下方便以后回看哦。小采会继续推出一系列教程,让大家更了解我们火车家族的使用方法呢!
PS:免费版脚本只能运行30分钟,无法使用项目管理器,需官方提供技术支持,如需IP代理,脚本定制,公众号里咨询小采或点击下方原文咨询客服。
标签: 火车采集器;
教你如何用火车采集器采集手机app中的数据信息
作者:dong 发布于:2018-3-16 17:27 Friday
随着移动互联网的迅猛发展,各类应用如雨后春笋般涌现出来,人们对智能手机依赖度远超过PC电脑。
对于移动端APP数据内容采集这方面的需求也越来越多,而APP数据采集却是一个难点。
那么对于移动端APP的内容,利用火车采集工具如何采集呢?
1.操作思路:
火车采集器可以像采集普通网站那样采集APP的数据,因为移动APP通过HTTP协议与服务器进行交互的。
网页抓取工具火车采集器是抓取HTTP以及HTTPS请求中的内容。
APP也通过这两种请求类型与服务器进行交互的,这需要分析出接口地址及参数的含义。
2.步骤
1)先将要分析的APP安装到手机上。
2)通过局域网将手机连接到PC。
3)打开抓包工具,先选择网络适配器为手机设备对应的项目 (一定要选对,否则后面捕获不到数据)。
4)启动监听。在手机上操作APP,打开想要采集的页面,此时抓包工具就会显示出该操作触发的网络请求和应答。
5)分析抓包工具监听到的HTTP报文(细心+耐心=成功)。
3.案例:
下面以京东APP为例来介绍具体怎么操作
(1)首先手机上要安装了APP,并且将手机与PC连接传输。
(2)打开抓包工具,查看FIDDLER的端口号,例下图:
(3)查看本地局域网的固定IP,例下图:
(4)在手机中设置代理服务器,将端口号以及IP写入。
如下图所示:
如上图在手机中设置好后,就可以将FIDDLER保持CAPTURING的状态.
然后操作京东的APP,打开想要采集的页面,此时抓包工具就会显示出该操作触发的网络请求和应答。
具体情况如下图所示:
4.然后我们就可以在火车采集器中分析请求写规则,并测试该HTTP是否可以采集。
这样利用网页抓取工具实现APP采集的步骤就基本完成了,大家可以多试几次,增加下操作熟练度。
不过APP和网页一样,我们看不到的数据是采不到的,比如很多人问的后台用户数据如何获取,像是这类信息统统是无法采集的。
好啦,今天的教程就到这里啦,有什么想要提问的盆友们可以在下方留言。我们会综合意见选中提问人数最多的问题开设下一期专题,大家敬请期待呢!
有疑问的可以在后台咨询小采或咨询客服。懂技术的小哥哥小姐姐都超帅超美的,真的是很棒呢!
图片来源于网络,如有侵权,请联系删除
感谢您抽出时间来阅读此文
做数据采集,我们是专业的!
标签: 火车采集器;
今年双11,您有5次半价抢购的机会!
作者:dong 发布于:2017-11-4 15:42 Saturday
因为没有准备国庆节的活动,被大神们在后台吐槽了整整一个月,心好累。这次再不给出最优惠的力度,小采就真的无颜面对你们啦~来,切入正题,看看火车头为你们准备的双11福利~
本次双11活动分为四趴,每一趴都相当给力,别着急,今天是预告,活动11月6日正式开始哦~~
活动一:每天11点11分半价开抢
11月6日-11月10日每天上午11点11分准时开抢半价优惠码!半价优惠码类别如下:
注意哦,数量真的有限,强烈建议您定个闹钟提前锁定活动页面,而且优惠码有效期仅为1天,抢到请立即使用,过期作废!!!
活动二:预付100抵200
通过活动页面的抵用券购买通道预付100元即可在购买软件(除采集器基础版外)时直接抵扣200元现金,预付时间是11月6日-11月10日,使用时间是11月11日-11月20日,付款前联系客服修改价格即可~
关于活动二,小采还没有说完,切记啊小伙伴们,这次活动二是可以与活动三同享的!!!真正的折上折!然鹅活动三是什么内容呢?请往下看 ↓↓↓
活动三:500个优惠码,低至6.8折
11月11日至20日按照下面领取方式获取新购优惠码
领取方式
第一步:点击顶部蓝色或识别下方二维码关注火车采集器微信公众号,小采在公众号等你哟~
第二步:在公众号菜单栏选择个人中心——绑定账号(优惠码将发放至您绑定的账号,未注册账号的请先在官网www.locoy.com注册账号)
第三步:微信公众号回复“双11”领取您需要的优惠码。
活动四:老用户专享,7折升级续费(领取时间:11月11日至11月20日)
双11怎能少了老用户的福利呢,如果您没能抢到每天11点11分的半价升级优惠码,就请移步活动四,这里有7折升级优惠码,仅需支付版本差价部分的7折就可以体验更高版本的软件了,无需重新购买高版本,进击中的大神又可以解锁新功能啦~
同样的,需要续费的亲们也可以享受7折优惠,目前没到期也没关系,是直接在到期时间的基础上续延的哦~
一口气说了这么多,您找到最适合您的领券姿势了吗?小采觉得,咱们与其剁手在吃喝玩乐上,不如先整个高效的采集工具!因为它能帮助我们真正掌握数据领域最基本的技能,开辟工作中的捷径,全面提升个人能力,总为他人鼓掌不如享受他人的掌声,大神们觉得呢?
最后,猛戳下方蓝字进入活动页面吧!
↓↓↓
【通知】火车采集器V9.6发布
作者:dong 发布于:2017-9-14 14:55 Thursday
更新:1: 多级网址列表,对于列表名增加重命名功能以及上下调整的功能。
2: 修复SqlServer数据库格式下,未能正确显示采集数量的问题。
3: 修复在新增标签时,若上一个编辑为固定格式数据,则新增的标签显示内容错误的问题。
4: 修复数据包登录中,若登录失效,未能自动重新登录的问题。
5: 修复FTP上传失败后,本地数据也被删除的问题。
6: 修复边采集边发时,文件上传FTP失败的问题。
7: 优化Excel保存时,对于ID,PageUrl显示列的位置。
8: 修复任务不能多选操作的问题。
9: 边采集边发布时,最大发布数的功能调整(原:最大发布数无效。 现:最大发布数生效,且在任务完成后,不会将以前的未发布数据再次发布)
10:修复对于存储过程语句,当数据为空值时,意外判断为“语句错误”的问题。
11:二级代理功能,修复定时拨号失效的问题。
12:二级代理功能,定时获取API功能优化,重新获取时,会自动删除上一批数据。
13:批量网址增加数据库导入的模式
14:导出到文件时,对于不合理的错误命名增加提示。
15:导出规则时,对于规则名称过长的规则,增加提示的功能。
16:规则编辑时,对于“包含”、“不包含”数据,复制粘贴多行时,会自动区分为多个数据。
17:添加对于芝麻代理的合作支持。
下载地址:http://www.locoy.com/download
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。