火车采集器V9起始网址页即为内容页和标签循环采集功能使用

作者:dong 发布于:2017-4-19 14:39 Wednesday

今天给大家分享财富网股票业绩预告信息采集规则。今天的规则相对比较简单,但简单中又有技巧,  

比如看到这个图的规则,会不会晕呢,怎么就标点符号和通配符呢?今天的规则主要使用了起始网址页即为内容页和标签循环采集功能,下方案例讲解为大家详细说明。


【案例讲解】
今天主要讲解 起始网址页即为内容页和标签循环采集功能,其他略过!

我们要采集的网址:http://data.eastmoney.com/bbsj/201703/yjyg.html

 

如上图,我们需要采集表格中的信息。

 
底部有分页,总共29页,发现点击分页,网址并无变化,那就这就需要我们使用抓包软件Fiddler(学习抓包)来抓取真实地址,如下图:

 


通过抓包我们找到了有我们需要的数据的页面地址,我们将网址复制出来,参照下图:

 

通过网址规则分析到分页的参数变量,一般可以通过抓取多个分页的网址进行对比就知道哪个是分页变量了,找到变量规则后,我就可可以通过网址分页规则进行设置,共29页,如下图:

 

通过抓包软件,我们看到我们所要采的数据就在抓取的分页中,就并不需要再采集内容页,我们要的内容就在起始网址页中,那么我们就需要使用火车采集器的起始网址就是内容页网址,我们点击“点击设置”,如下图:

 

点击出现下图,是灰色的,不能进行任何设置,因为我们不需要设置采集内容页网址了,所以这里不操作。

 

直接进入内容采集规则设置界面,如下图,因为我们需要采的内容是表格内容并且都在一个页面上,所以我们需要使用循环采集,所以设置标签的时候,每个标签都要将循环匹配√选上。(每个标签的内容采集规则这里不多说,大家可以下载规则自行测试学习,其实还是有一定的小技巧的)

 

网页上的表格数据,一行一条信息,所以我们采集下来也是需要一行一条信息,那在左侧下方的循环设置中我们要进行设置,改为“添加新记录”,这样我们采集的信息就会一行一条,否则所有信息将堆积在一起,只有一条信息。参照下图:

 

设置好后我们进行测试,出现下图即为设置成功

 


另外讲下,在采集该页面信息进行循环时,发现第一条信息和其他信息的规则不一样,经过分析,只能循环采集每页的除第一条的其他信息。那这应该怎么办?这个没有更好的方法,页面数据规则太过简单,无法找到一个能够匹配所有信息的规则,解决方法只有一个笨方法,但是也是唯一可以解决此问题的。那就是先循环采集所有信息,然后再设一个规则只针对第一条信息,再采一次最后合并。这里分享的规则不能采集到第一条信息,大家可以按照我的思路去尝试采集第一条信息。
 


本案例规则下载:【东哥福利】火车采集器V9财富网业绩预告信息采集规则分享

评论(0) 引用(0) 浏览(3891)

【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件

作者:dong 发布于:2017-3-23 10:45 Thursday 分类:强烈推荐

【东哥福利】今天为大家带来豆瓣电影采集规则,同时为大家讲解如何本地发布csv文件。
另外今天还给大家讲解如何通过fiddler抓包软件抓取网页真实网址。

文件包中包含两个规则文件,一个发布模板文件,请按照以下说明使用。

本规则为火车采集器V9版规则,其他低版本不可使用。
本规则采集豆瓣电影信息,本规则仅供学习参考,仅抓取其中一个类别,另因豆瓣有IP限制,本规则不能将全部数据采集下来,如需要采集更多数据,请自行配置IP资源。
规则文件“豆瓣电影 - 带发布csv配置(收费版可用).ljobx”带发布csv配置,但必须收费版方可使用
文件“豆瓣电影.csv"为发布csv模板,请将此文件复制到FileTemplate目录下
文件“豆瓣电影.ljobx”为免费版用户可使用的规则,不带发布配置
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。

下载链接:http://bbs.locoy.com/spider-150886-1-1.html

 

商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060


【案例讲解】

本案例是采集豆瓣电影信息数据,网址https://movie.douban.com/
 
如上图,这种瀑布流形式的网页是无法直接看到数据列表的真实网址,需要借助抓包软件来抓取真实网址,我们这里是推荐使用Fiddler。

 

大家可以自行去下载该软件,然后打开软件,打开豆瓣电影页面,点击加载更多,抓包软件便会记录他的数据列表真实地址,如何找到该地址参照上图。
关于fiddler的使用教程:http://faq.locoy.com/search.html?keyword=fiddler
另外由于豆瓣使用的是https协议,fiddler软件需要进行设置方可抓取https协议的网址,设置方法参照:http://faq.locoy.com/q-1194.html

【如何设置发布数据到本地CSV格式】

 

如上图:内容发布规则设置,选择保存为本地文件,本地文件保存启用,文件格式选择csv,然后需要设置一个保存模板,下载附件中已经包含了应该模板文件,可以直接使用。(这里也简单提下如何制作模板文件,在我们的模板文件目录里有一个默认csv模板文件,可以直接复制一个另起一名,然后用记事本方式打开,再强调一下,一定要用记事本打开,然后按照自己的采集标签修改,字段名一定要与采集器内容采集中的标签名相同,字段之间的逗号一定要用英文逗号。)

 
如上图在其他设置里有个任务运行线程及时间,发布的线程可以修改,这可以加快发布的速度。


 

一切设置好之后,按照上图,可以把前面两√去掉,然后运行任务即可将数据保存到本地csv格式。


往期福利:


【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享

【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享

火车采集器软件V9.3最新视频教程-YY直播课程录屏合集

联系我们
客服QQ:800019423
客服电话:400-8757-060


软件购买:http://www.locoy.com/buy


标签: 采集规则分享

评论(0) 引用(0) 浏览(12726)

【东哥福利】火车采集器V9京东商城商品信息采集规则分享

作者:dong 发布于:2017-3-9 14:01 Thursday

又到了每周 【东哥福利】的时间,今天给大家分享京东商城手机商品信息采集规则。今天的规则主要用到多页采集功能,需要学习这个功能的可以以此为案例进行学习。
 

 


下载地址:http://bbs.locoy.com/spider-150821-1-1.html


本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。

商业版用户有问题或付费定制规则请联系官方客服QQ:800019423


【东哥福利】


火车采集器V9携程景点采集规则分享

火车采集器软件-今日头条娱乐新闻采集规则

火车采集器58同城招聘信息采集规则分享

火车采集器软件V9.3最新视频教程-YY直播课程录屏合集

联系我们
客服QQ:800019423
客服电话:400-8757-060


软件购买:http://www.locoy.com/buy


评论(0) 引用(0) 浏览(4336)

火车浏览器开发SDK下载

作者:小文 发布于:2017-2-24 10:50 Friday 分类:软件培训

该SDK包含了sdk二次开发,自定义界面开发,插件开发多个文档。讨论QQ群:149855485

下载地址:http://qiniu.locoy.com/sdk/locoyposter.7z

标签: 浏览器 sdk

评论(1) 引用(0) 浏览(12112)

火车采集器软件V9.3最新视频教程-YY直播课程录屏合集

作者:dong 发布于:2017-2-15 19:14 Wednesday

这里为您收集整理官方最新火车采集器V9.3视频教程YY直播课程录屏合集

1、火车采集器网址采集操作

http://www.locoy.com/index/video_detail/cat_id/11


2、火车采集器内容采集操作
http://www.locoy.com/index/video_detail/cat_id/11/id/23


3、发布操作之web发布模块
http://www.locoy.com/index/video_detail/cat_id/11/id/24


4、发布操作之保存本地文件
http://www.locoy.com/index/video_detail/cat_id/11/id/25


5、发布操作之入库发布模块
http://www.locoy.com/index/video_detail/cat_id/11/id/26


6、高级功能操作
http://www.locoy.com/index/video_detail/cat_id/11/id/27


7、其他设置操作教程
http://www.locoy.com/index/video_detail/cat_id/11/id/28


8、论坛采集及Discuz论坛发布操作教程
http://www.locoy.com/index/video_detail/cat_id/11/id/29


9、采集虐你千百遍,搞不定的用插件(插件功能介绍)
http://www.locoy.com/index/video_detail/cat_id/11/id/30

更多其他教程
V9版最新帮助手册 http://www.locoy.com/index/guide
常见问题:http://faq.locoy.com/


采集入门视频教程:http://www.locoy.com/index/video_detail/cat_id/1
采集基础视频教程:http://www.locoy.com/index/video_detail/cat_id/2
发布基础视频教程:http://www.locoy.com/index/video_detail/cat_id/3

联系我们
客服QQ:800019423
客服电话:0551-62864156-603


软件购买:http://www.locoy.com/index/buy_detail/id/1



评论(0) 引用(0) 浏览(7842)

Powered by emlog