【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
作者:dong 发布于:2017-3-23 10:45 Thursday 分类:强烈推荐
【东哥福利】今天为大家带来豆瓣电影采集规则,同时为大家讲解如何本地发布csv文件。另外今天还给大家讲解如何通过fiddler抓包软件抓取网页真实网址。
文件包中包含两个规则文件,一个发布模板文件,请按照以下说明使用。
本规则为火车采集器V9版规则,其他低版本不可使用。
本规则采集豆瓣电影信息,本规则仅供学习参考,仅抓取其中一个类别,另因豆瓣有IP限制,本规则不能将全部数据采集下来,如需要采集更多数据,请自行配置IP资源。
规则文件“豆瓣电影 - 带发布csv配置(收费版可用).ljobx”带发布csv配置,但必须收费版方可使用
文件“豆瓣电影.csv"为发布csv模板,请将此文件复制到FileTemplate目录下
文件“豆瓣电影.ljobx”为免费版用户可使用的规则,不带发布配置
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。
下载链接:http://bbs.locoy.com/spider-150886-1-1.html
商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060
【案例讲解】
本案例是采集豆瓣电影信息数据,网址https://movie.douban.com/
如上图,这种瀑布流形式的网页是无法直接看到数据列表的真实网址,需要借助抓包软件来抓取真实网址,我们这里是推荐使用Fiddler。
大家可以自行去下载该软件,然后打开软件,打开豆瓣电影页面,点击加载更多,抓包软件便会记录他的数据列表真实地址,如何找到该地址参照上图。
关于fiddler的使用教程:http://faq.locoy.com/search.html?keyword=fiddler
另外由于豆瓣使用的是https协议,fiddler软件需要进行设置方可抓取https协议的网址,设置方法参照:http://faq.locoy.com/q-1194.html
【如何设置发布数据到本地CSV格式】
如上图:内容发布规则设置,选择保存为本地文件,本地文件保存启用,文件格式选择csv,然后需要设置一个保存模板,下载附件中已经包含了应该模板文件,可以直接使用。(这里也简单提下如何制作模板文件,在我们的模板文件目录里有一个默认csv模板文件,可以直接复制一个另起一名,然后用记事本方式打开,再强调一下,一定要用记事本打开,然后按照自己的采集标签修改,字段名一定要与采集器内容采集中的标签名相同,字段之间的逗号一定要用英文逗号。)
如上图在其他设置里有个任务运行线程及时间,发布的线程可以修改,这可以加快发布的速度。
一切设置好之后,按照上图,可以把前面两√去掉,然后运行任务即可将数据保存到本地csv格式。
往期福利:
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享
【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享
火车采集器软件V9.3最新视频教程-YY直播课程录屏合集
联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy
标签: 采集规则分享
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。