【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件

作者:dong 发布于:2017-3-23 10:45 Thursday 分类:强烈推荐

【东哥福利】今天为大家带来豆瓣电影采集规则,同时为大家讲解如何本地发布csv文件。
另外今天还给大家讲解如何通过fiddler抓包软件抓取网页真实网址。

文件包中包含两个规则文件,一个发布模板文件,请按照以下说明使用。

本规则为火车采集器V9版规则,其他低版本不可使用。
本规则采集豆瓣电影信息,本规则仅供学习参考,仅抓取其中一个类别,另因豆瓣有IP限制,本规则不能将全部数据采集下来,如需要采集更多数据,请自行配置IP资源。
规则文件“豆瓣电影 - 带发布csv配置(收费版可用).ljobx”带发布csv配置,但必须收费版方可使用
文件“豆瓣电影.csv"为发布csv模板,请将此文件复制到FileTemplate目录下
文件“豆瓣电影.ljobx”为免费版用户可使用的规则,不带发布配置
本规则仅供广大用户学习交流参考,不可用以违法目的或商业用途,我们不对因使用此规则造成的任何法律问题承担责任。

下载链接:http://bbs.locoy.com/spider-150886-1-1.html

 

商业版用户有问题或付费定制规则请联系官方客服QQ:800019423 服务热线:400-8757-060


【案例讲解】

本案例是采集豆瓣电影信息数据,网址https://movie.douban.com/
 
如上图,这种瀑布流形式的网页是无法直接看到数据列表的真实网址,需要借助抓包软件来抓取真实网址,我们这里是推荐使用Fiddler。

 

大家可以自行去下载该软件,然后打开软件,打开豆瓣电影页面,点击加载更多,抓包软件便会记录他的数据列表真实地址,如何找到该地址参照上图。
关于fiddler的使用教程:http://faq.locoy.com/search.html?keyword=fiddler
另外由于豆瓣使用的是https协议,fiddler软件需要进行设置方可抓取https协议的网址,设置方法参照:http://faq.locoy.com/q-1194.html

【如何设置发布数据到本地CSV格式】

 

如上图:内容发布规则设置,选择保存为本地文件,本地文件保存启用,文件格式选择csv,然后需要设置一个保存模板,下载附件中已经包含了应该模板文件,可以直接使用。(这里也简单提下如何制作模板文件,在我们的模板文件目录里有一个默认csv模板文件,可以直接复制一个另起一名,然后用记事本方式打开,再强调一下,一定要用记事本打开,然后按照自己的采集标签修改,字段名一定要与采集器内容采集中的标签名相同,字段之间的逗号一定要用英文逗号。)

 
如上图在其他设置里有个任务运行线程及时间,发布的线程可以修改,这可以加快发布的速度。


 

一切设置好之后,按照上图,可以把前面两√去掉,然后运行任务即可将数据保存到本地csv格式。


往期福利:


【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享

【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享

火车采集器软件V9.3最新视频教程-YY直播课程录屏合集

联系我们
客服QQ:800019423
客服电话:400-8757-060


软件购买:http://www.locoy.com/buy


标签: 采集规则分享

评论(0) 引用(0) 浏览(12678)

强烈推荐HeidiSQL8.0,数据库客户端软件

作者:小文 发布于:2013-5-23 12:43 Thursday 分类:强烈推荐

Ansgar Becker 刚刚 宣布 HeidiSQL 8.0 发布了,HeidiSQL 是一个功能非常强大的数据库客户端软件,采用 Delphi 开发,支持 Windows 操作系统。支持 MySQL、MariaDB、Percona Server 和微软的 SQL Server。

自从 2012年2月发布的 7.0 版本以 来,HeidiSQL 就兼容微软的 SQL Server 数据库。而 8.0 版本包含 343 个修订,包括新的翻译(多大23种语言支持),程序编辑器支持 SQL Server ,修复了 Linux 下使用 Wine 运行的 bug 等等,完整的列表请看 release announcement.

HeidiSQL 8.0 可通过这里 下载 ,源码托管在 http://code.google.com/p/heidisql/

HeidiSQL 的详细介绍:请点这里

HeidiSQL 的下载地址:请点这里

 

该软件为公司一直使用并推荐的,文章内容转自开源中国 http://www.oschina.net/news/40688/heidisql-8-0-arrives-with-polished-user-interface

标签: mysql sqlserver

评论(0) 引用(0) 浏览(14740)

安装免费的SQL Server Express来保存数据到SqlServer中去。

作者:小文 发布于:2013-4-27 16:24 Saturday 分类:强烈推荐

 SQL Server Express 是由Microsoft所开发的SQL Server的其中一个版本,这个版本是免费且可自由转散布,并且可和商用程序一起使用的小型数据库管理系统,它继承了多数的SQL Server功能与特性,像是Transact-SQL、SQL CLR等,相当适合使用在小型的网站,或者是小型的桌面型应用程序,它也可以和 SQL Server 集成,作为数据库复制(Replication)的订阅端。

该免费版的限制及详细说明请到 http://baike.baidu.com/view/1824468.htm 这里来看。对于一般的小量的数据或是测试,这个数据库完全够用了,用来采数据也是不错的。

我们将微软件官网上的数据库及管理工具全部下载打包上传了,需要的用户直接下载即可的。下载分为2005和2008两个版本,建议xp用户用2005,win7的使用2008.

2005:http://pan.baidu.com/share/link?shareid=430818&uk=2080666722

          http://www.kuaipan.cn/file/id_11936336885841934.htm

2008:http://pan.baidu.com/share/link?shareid=430816&uk=2080666722

          http://www.kuaipan.cn/file/id_11936336885841935.htm

标签: 数据库

评论(1) 引用(0) 浏览(13851)

推荐用户使用正则表达式测试工具测试正则

作者:小文 发布于:2013-4-26 11:32 Friday 分类:强烈推荐

对于一些特殊的提取,必须使用正则表达式才可以。在此向大家推荐 正则表达式工具 Match Tracer 。简单明了,适合国人使用习惯。且现在已完全免费(当初为了得到Match Tracer作者的指点,购买的商业版,作者人很不错)。

下载地址:http://www.regexlab.com/zh/mtracer/

点击查看原图

 

标签: 正则

评论(0) 引用(0) 浏览(16054)

Powered by emlog