春季放“价”日,火车5折优惠券等你来抢
作者:dong 发布于:2018-4-10 16:54 Tuesday 分类:官方公告
标签: 火车采集器;优惠活动;春季促销
清明旅行攻略,用火车浏览器采集携程旅游大数据
作者:dong 发布于:2018-4-3 9:42 Tuesday
1
春路雨添花,花动一山春色
东城渐觉风光好,淡荡春光寒食天。
输他郊郭外,多少踏青人。
清明小长假即将来临,你是否有打算趁着春光正好,沿袭古人的传统,去外面走一走?
但是这样盲目出行显然是不明智地,今天小采就教大家如何快速做好一份清明出行攻略,是所谓:
波光潋滟三千顷,莽莽群山抱古城。 四季看花花不老,一江春月是昆明。因为小采很喜欢昆明这个地方,一直很想去昆明一次,这次就以昆明为例,算是满足一下小采个人的私心吧。
2
暮春三月别昆明,大好山河记忆新
这次我们使用火车浏览器来采集携程网昆明站前十名的数据,具体步骤如下:
1. 浏览器是可以做可视化处理的工具,首先可以打开要采集的网址,比如:http://dst.ctrip.com/it/kunming110.html
2. 目前的需求是获取线路前10的网址
火车浏览器可以使用xpath直接获取数据,比如:
3. 已经将10条数据网址获取到相关变量中了,再次需要打开具体的网址后获取具体的网页数据,比如:
将获取的10条网址,循环依次打开。
4. 使用批量提取的步骤,批量提取多个数据的值,比如:
5. 可以使用点击的操作,直接打开一个特定的网址,比如:
整体运行图如下:
3
南园春半踏青时,风和闻马嘶
春天不是读书天,但却是一个适宜解放自然天性的季节,趁着春光正好,我们还年轻,来一场说走就走的旅行吧。 当然喽,出发前记得用火车浏览器查查当地的情况哦,试想当别人还一头茫然地听着导游规划路线的时候,你早已胸有成竹,那该是多么惬意啊。 今天的教程就到这里了,如果您还有什么不清楚的问题,可以在后台咨询小采,也可以在火车采集器的官网上咨询在线客服,或者加入粉丝群与群里的大神们来一场思维火花的碰撞。
【教程】如何用火车浏览器采集b站弹幕评论的数据
作者:dong 发布于:2018-4-2 17:52 Monday
、
在上一期小采向大家介绍了花瓣网瀑布流数据采集思路详解,不知道大家回去有没有自己动手操作一遍呢?如果练习了就好好阅读今天这篇教程吧。
之前曾经有人有人在qq群里提问如何采集b站的弹幕,恰逢上一周b站从美国纳斯达克交易所敲钟上市,所以我们特意缠着技术推出了一期b站特刊。
b站的弹幕和鬼畜文化陪伴了国人这么多年走来,早已经成了”中二病“爱好者心中不可分割的一部分,今天就让我们同样可爱的小采来介绍一下如何使用火车浏览器来采集b站的弹幕评论数据吧!
如何采集B站的弹幕,看下面这个链接:
https://www.bilibili.com/video/av21038666/?spm_id_from=333.334.chief_recommend.20
以这一个视频地址作为例子,下面介绍下编写的思路以及方法。
编写重点以及难点:
(1) http请求用法,教程参考:
http://bbs.locoyposter.com/forum.php?mod=viewthread&tid=231&highlight=http
(2)Js转换时间戳用法,教程参考:http://help.locoyposter.com/index.html#javascript
编写过程,这里介绍下编写过程中的重点步骤,一些基本步骤的使用就请参考视频学习
(1)打开需要采集的页面,然后使用fiddler抓包分析需要采集的评论在哪个请求中,找到对应请求之后将网址以及请求头信息复制放在火车浏览器步骤中:
设置好后,观察提取到的源码,分析需要采集数据的前后分割字符,使用循环提取步骤将发布时间以及发布内容同时提取到list变量中,以特殊间隔符分割开来,以便后续对两个字段分别进行处理:
提取好后,观察提取到的数据,我们提取的时间其实一串时间戳,因此需要使用对应的代码来将时间戳转换为时间,具体代码如图,插一句,如果有一些功能我们火车浏览器无法实现,可以通过js,C#,python等插件来实现一些扩展功能。
然后按照自己需要的模板,将采集的数据保存即可,示例中提供的是将数据保存在txt,火车浏览器还支持保存在execl以及数据库中。
示例提供的仅仅是一个B站视频弹幕的采集,如果要实现更多视频弹幕的采集,修改下脚本的逻辑规则即可手到擒来。
好了,今天的教程就到这了,有什么问题还没弄清楚的同学可在后台询问客服,或通过阅读原文进入我们火车采集器的官方网站,向在线客服即时咨询。
花瓣网—瀑布流数据采集思路详解
作者:dong 发布于:2018-4-2 17:48 Monday
1
瀑布流,又称瀑布流式布局。是比较流行的一种网站页面布局。
视觉表现为参差不齐的多栏布局,随着页面滚动条向下滚动,这种布局还会不断加载数据块并附加至当前尾部。
用户一眼扫过的快速阅读模式可以在短时间内获得更多的信息量,而瀑布流里懒加载模式又避免了用户鼠标点击的翻页操作。
错落有致,定宽而不定高的设计让页面区别于传统的矩阵式图片布局模式,巧妙的利用视觉层级,视线的任意流动又缓解了视觉疲劳,同时给人以不拘一格的感觉。
切中年轻一族的个性化心理。所以这种页面布局在现今饱受欢迎。
那么如何采集瀑布流数据呢?
今天我们以花瓣网为例,向大家解说一下:
花瓣网—瀑布流数据采集思路
2
1. 拿到网页后,分析网页的形式,得出网页为瀑布流形式,需要通过FIDDLER抓包获取真实地址
HTTP://HUABAN.COM/EXPLORE/UISHUJU/?JF22V0AV&MAX=1356497171&LIMIT=200&WFL=1
修改下LIMIT参数为200,这样采集器可以获取200个列表页。
3
2. 编写网址采集规则
4
3. 获取列表页后,设置内容采集规则
图片采集用到了商业版的功能,内容添加前后缀。
注意事项:这个网页使用瀑布流形式,需要抓包获取真实地址
FIDDLER抓包教程HTTP://FAQ.LOCOY.COM/Q-755.HTML
抓包工具小伙伴们可以自行百度下载安装,操作很简单。
好了,不知道小伙伴们有没有看懂呢?不管会不会,回去点开火车采集器先跟着教程做一遍吧。实际操作之后,你就会发现原来瀑布数据采集并没有想象中的那么难。
标签: 瀑布流
采集网页数据生成自定义EXCEL表格有多简单?
作者:dong 发布于:2018-3-16 17:49 Friday
如何采集网页数据生成自定义EXCEL表格?
当然是用火车浏览器啦!!!
营销人员常需要获取行业最新信息,进而处理成自定义表格,使用火车浏览器可实现采集信息到生成自定义表格一步到位。
可视化自动提取数据,可自动定时更新的超强功能设计,确保能让您及时掌握行业最新数据。
小采妹
本期分享采集安居客合肥地区最新二手房网页数据自动生成EXCEL表格为例。
1
步骤1:打开火车浏览器→右击→点击浏览器→打开网页→输入网址并保存
右击测试运行,可以在软件页面看到打开的网页的页面
2
步骤2:取出每个房源中需要的信息右击→元素操作→单次提取→保存
(提取信息,需要写XPATH提取规则,HTTP://BBS.LOCOYPOSTER.COM/FORUM.PHP?MOD=VIEWTHREAD&TID=541&HIGHLIGHT=XPATH)
保存信息到LIST变量,然后测试提取,结果如图:
3
步骤3:对采集的信息进行处理 右击→元素操作→循环
4
步骤4:对单个源码进行处理 让数据保存到相应的变量 右击→变量处理→变量处理
先对源码进行处理保存到楼盘名这个变量
(1)先打开变量管理→单个源码进行分析
如下图所示:
需要的信息在<SPAN TITLE="和”> 源码之间.
所以写内容截取,设置如下图:
点击确定→点击保存→测试
得到需要信息;(之后其他几个变量,处理过程原理相同。)
最终得到每个需要的信息:
5
步骤5:把采集的信息保存到表格中
需要创建一个数据库文件
如图设置:
(2)写一个查询数据库语句 (目的:为了以后更新数据)
(3)通过变量比较,来判断是否入库右击→逻辑运算→变量比较→保存。
若是则不插入数据,不是则插入数据到创建的数据库中.
这样上个页面就采集完成,接下来采集下一页
步骤六:右击→文件操作→导出EXCEL
右击→元素操作→点击→保存
整个流程如图:
采集后部分数据如图:
好了以上就是今天的所有教程,技术小哥哥小姐姐你们学会了吗?不会的可要收藏一下方便以后回看哦。小采会继续推出一系列教程,让大家更了解我们火车家族的使用方法呢!
PS:免费版脚本只能运行30分钟,无法使用项目管理器,需官方提供技术支持,如需IP代理,脚本定制,公众号里咨询小采或点击下方原文咨询客服。
标签: 火车采集器;
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。