【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件

作者:dong 发布于:2017-3-23 10:45 Thursday 分类:强烈推荐

【东哥福利】今天为大家带来豆瓣电影采集规则,同时为大家讲解如何本地发布csv文件。
另外今天还给大家讲解如何通过fiddler抓包软件抓取网页真实网址。

文件包中包含两个规则文件,一个发布模板文件,请按照以下说明使用。

本规则为火车采集器V9版规则,其他低版本不可使用。
本规则采集豆瓣电影信息,本规则仅供学习参考,仅抓取其中一个类别,另因豆瓣有IP限制,本规则不能将全部数据采集下来,如需要采集更多数据,请自行配置IP资源。
规则文件“豆瓣电影 - 带发布csv配置(收费版可用).ljobx”带发布csv配置,但必须收费版方可使用
文件“豆瓣电影.csv"为发布csv模板,请将此文件复制到FileTemplate目录下
文件“豆瓣电影.ljobx”为免费版用户可使用的规则,不带发布配置
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。

下载链接:http://bbs.locoy.com/spider-150886-1-1.html

 

商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060


【案例讲解】

本案例是采集豆瓣电影信息数据,网址https://movie.douban.com/
 
如上图,这种瀑布流形式的网页是无法直接看到数据列表的真实网址,需要借助抓包软件来抓取真实网址,我们这里是推荐使用Fiddler。

 

大家可以自行去下载该软件,然后打开软件,打开豆瓣电影页面,点击加载更多,抓包软件便会记录他的数据列表真实地址,如何找到该地址参照上图。
关于fiddler的使用教程:http://faq.locoy.com/search.html?keyword=fiddler
另外由于豆瓣使用的是https协议,fiddler软件需要进行设置方可抓取https协议的网址,设置方法参照:http://faq.locoy.com/q-1194.html

【如何设置发布数据到本地CSV格式】

 

如上图:内容发布规则设置,选择保存为本地文件,本地文件保存启用,文件格式选择csv,然后需要设置一个保存模板,下载附件中已经包含了应该模板文件,可以直接使用。(这里也简单提下如何制作模板文件,在我们的模板文件目录里有一个默认csv模板文件,可以直接复制一个另起一名,然后用记事本方式打开,再强调一下,一定要用记事本打开,然后按照自己的采集标签修改,字段名一定要与采集器内容采集中的标签名相同,字段之间的逗号一定要用英文逗号。)

 
如上图在其他设置里有个任务运行线程及时间,发布的线程可以修改,这可以加快发布的速度。


 

一切设置好之后,按照上图,可以把前面两√去掉,然后运行任务即可将数据保存到本地csv格式。


往期福利:


【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享

【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享

火车采集器软件V9.3最新视频教程-YY直播课程录屏合集

联系我们
客服QQ:800019423
客服电话:400-8757-060


软件购买:http://www.locoy.com/buy


标签: 采集规则分享

发表评论:

Powered by emlog