【东哥福利-新手必看】最新最全火车采集器V9版学习资料

作者:dong 发布于:2017-6-22 15:05 Thursday

最新最全火车采集器V9版学习帮助资料
新手必看
1、用户使用手册 http://www.locoy.com/index/guide
  PDF版下载:http://file.locoy.com/locoyspider/%E7%81%AB%E8%BD%A6%E9%87%87%E9%9B%86%E5%99%A8%E6%89%8B%E5%86%8C.pdf

2、视频教程
章节1:基本介绍
Lesson_1:火车采集器入门介绍 安装卸载:http://www.locoy.com/index/video_detail/cat_id/1
Lesson_2:一个简单的文章采集+发布演示:http://www.locoy.com/index/video_detail/cat_id/1/id/14

章节2:采集基础教程
Lesson_1:起始网址的设置:http://www.locoy.com/index/video_detail/cat_id/2
Lesson_2:[常规模式获取内容网址:http://www.locoy.com/index/video_detail/cat_id/2/id/11
Lesson_3:[高级模式]POST网址采集:http://www.locoy.com/index/video_detail/cat_id/2/id/12
Lesson_4:标签设置:http://www.locoy.com/index/video_detail/cat_id/2/id/15
Lesson_5:标签—数据处理:http://www.locoy.com/index/video_detail/cat_id/2/id/16
Lesson_6:标签—内容分页:http://www.locoy.com/index/video_detail/cat_id/2/id/17
Lesson_7:标签—内容循环设置http://www.locoy.com/index/video_detail/cat_id/2/id/18

章节3:发布基础教程
Lesson_1:WEB发布模块的制作:http://www.locoy.com/index/video_detail/cat_id/3/id/21
Lesson_2:数据库入库模块的配置:http://www.locoy.com/index/video_detail/cat_id/3/id/20
Lesson_3:保存为本地Txt,Word,Excel等文件:http://www.locoy.com/index/video_detail/cat_id/3/id/19

进阶教程
2016年最新直播录屏视频
火车采集器网址采集操作:http://www.locoy.com/index/video_detail/cat_id/11/id/22
火车采集器内容采集操作:http://www.locoy.com/index/video_detail/cat_id/11/id/23
火车采集器V9发布操作之web发布模块:http://www.locoy.com/index/video_detail/cat_id/11/id/24
火车采集器V9发布操作之保存本地文件:http://www.locoy.com/index/video_detail/cat_id/11/id/25
火车采集器V9发布操作之入库发布模块:http://www.locoy.com/index/video_detail/cat_id/11/id/26
火车采集器V9高级功能操作视频教程:http://www.locoy.com/index/video_detail/cat_id/11/id/27
火车采集器V9其他设置操作教程:http://www.locoy.com/index/video_detail/cat_id/11/id/28
火车采集器V9之论坛采集及Discuz论坛发布操作教程:http://www.locoy.com/index/video_detail/cat_id/11/id/29
火车采集器V9教程之插件介绍:http://www.locoy.com/index/video_detail/cat_id/11/id/30
真实案例规则分享讲解:
【东哥福利】火车采集器V9财富网业绩预告信息采集规则分享
【东哥福利】火车采集器V9住哪儿网酒店信息采集规则分享
【东哥福利】火车采集器V9安居客小区信息采集规则分享
【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享

【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享

火车采集器V9常见问题/功能介绍集合
http://faq.locoy.com/qc-61.html?p=1
扫描二维码关注官方微信,每周分享更多技巧

联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy

评论(2) 引用(0) 浏览(3214)

【教程】途牛网采集规则分享

作者:dong 发布于:2018-9-19 11:39 Wednesday

进入9月

想旅行的心一直在躁动

中秋小长假和国庆黄金周

终于要来啦!

timg.gif 

中秋节是团圆的日子

虽然假期不长

但是带着一家老小散散心

别提有多幸福了

今天我们就来带大家看一下

如何采集途牛旅行网中秋旅行有关活动前十名的数据信息

微信图片_20180919110634.gif


首先,打开需要采集的页面:

http://s.tuniu.com/search_complex/whole-nj-0-%E4%B8%AD%E7%A7%8B/,因为我们只需要采集前十条热门旅游景点,所以不需要再分析下一页,直接将地址放在采集器起始地址中即可,然后在网页源码中分析内容页地址的前后源码:

1.png 


测试采集列表页地址结果:

2.png 


接下来就是具体分析内容页中需要采集的标签,下面以价格为例,分析下价格的前后字符:

3.png

分析前后字符后填入火车采集器如下:

4.png 


其他标签一样的方式分析,不再截图叙述,内容标签采集结果如下:

5.png


此次需注意:

1. 因为我们只采集前10条,因此可定义最大采集数为10,这样我们就得到了全部数据信息。

6.png

“我曾经跨过山和大海,也穿过人山人海,最后还是遗失在人潮里”,这恐怕是国庆假期出行年年的写照

中秋国庆双节即将来临

介绍完中秋国庆值得去的目的地

小采温馨提醒各位采友

中秋国庆出去旅行,一定要注意安全哦!

评论(0) 引用(0) 浏览(83)

【教程】知乎采集规则分享

作者:dong 发布于:2018-9-19 10:39 Wednesday

苹果举办了Apple 2018秋季发布会

史上最贵的iPhone横空出世

售价高达12799元!

吓得小采

赶紧摸了摸肾还在不?

微信图片_20180919102351.jpg

其实么,有时候做个吃瓜群众挺好的

说到吃瓜群众就不得不谈谈大知了

今天我们就来探讨一下

如何采集知乎群众对“iPhone”的看法吧!

微信图片_20180919102458.jpg


第一步:在浏览器中打开知乎网站,然后登录知乎账号,登录后打开fiddler用于抓包,做好上述准备工作后。搜索你感兴趣的关键词,这次我们使用‘iphone’ 作为关键词,fiddler进行抓包。因为知乎是瀑布流形式的下一页,因此,我们再往下拖动瀑布流,抓取更多页的列表页。

图片1.png 

抓取数据如上图


第二步:接下来我们要分析,列表页地址在哪一个请求里面,找第一页的网址,然后在fiddler中进行搜索。找到包含地址的网址,然后记录下来。接下来找第二页中的网址,然后在fiddler中分析,

图片2.png 

可以看到我记录的网址分布规律:

图片3.png 

第一页地址,跟第二页第三页的格式分配规律不同,然后分析可以看到第二页第三页中变化的参数是offset,我们改变offset的值为零,可以看到源码中是有第一页中的内容的,所以我们用这个地址作为第一页的地址,然后再分析内容页地址。

知乎有两种类型的网页,我们取这种类型的网页:

图片4.png 

通过分析源码得到列表页提取规则如下:

图片5.png 


第三步:在内容页源码中找所需字段的前后代码,以内容字段的前后分析字段示例:

采集页面:

图片6.png 

源码示例:

图片7.png 

采集器设置:

图片8.png 

其余字段分析原理一致,不做赘述。

采集结果如下:

图片9.png 

此次编写需注意:

1. fiddler的熟练使用,可以参考教程:http://faq.locoy.com/q-1129.html


评论(0) 引用(0) 浏览(103)

火车采集器:关于近期有人冒充我司名义行骗的严正声明

作者:dong 发布于:2018-9-10 9:49 Monday

关于近期有人冒充我司名义行骗的严正声明

 

近期,有人冒充我司名义,从事行骗活动,此行为严重损害了我司品牌和客户利益。为避免客户受骗,维护公司合法权益,现严正声明:

 

1. 我司官方客服QQ800019423,联系电话0551-62864156,官方网站www.locoy.com,微信公众号火车采集器(微信号locoyplatform),请通过以上联系方式和我们联系以及在官方网站上进行购买支付交易。

 

2. 我司从未授权任何人或是公司代理销售我司软件产品,也不为任何人或公司的交易做任何担保。用户和第三方进行数据采集交易,请勿轻信夸大的承诺。

 

3、郑重警告正在冒用我司名义进行销售及其他活动的任何个人或组织,立即停止此类非法行为。对于损害我司合法权益的行为,我司保留追究诉诸法律的权利。

 

特此声明

合肥乐维信息技术有限公司

2018910

评论(0) 引用(0) 浏览(76)

数据驱动社群运营,怎样科学找到你的群聊kol

作者:dong 发布于:2018-9-10 9:49 Monday

前些天看知乎,看到有人讨论kol,如下图:

 

小采想就kol跟大家来聊一聊,为什么你手机里曾经加入过的好多群聊,最后都无声无息的死掉了?

总结了一下群聊死掉的原因,我得出两个结论:

1、群里没有KOL,也就是没有人制造话题,活跃群氛围;

2、群聊定位不明确,运营者不知道大家喜欢聊什么。

我就以公司最近拉的“火车头YY培训交流群”为例子吧:

这个群是我们最近新拉的一个直播培训交流群,目的是方便直播培训活动的进行and为大家提供一个交流场所。

我把群里的聊天记录以txt文本形式都导了出来做了一个简单的分析,如图:

 

看上去很杂乱,这样的数据显然是不能直接用的,所以把数据导入excel表格。

但是直接导入excel表格的话你只会得到一堆无序的数据,这不是我们想要的。

因为如果你把它直接导入进Excel,会出现很多串行的情况,群消息的文本会有换行的内容。

所以这肯定是要处理的,并且会有两个比较严重的问题:

1. 换行后是时间的保留下,其他类型的换行全部去掉,要不然导入Excel会出现串行的情况;

2. TXT中字段之间的间距不一致,需要间距一样或者用相同的字符分开才能导入进Excel里。

TXT不支持通配符,所以需要放到Word中处理。复制进Word后,把所有的“^p2018”(通配符^p代表回车或者换行符)都替换成“####”保存下来,然后把其他剩余的“^p”全部删掉。然后再把####替换回“^p2018”。这样第一步完成。

这时你就得到了这样的数据,如图所示:

 

把这些数据导入excel表格,像这样:

 

再进行分列操作,具体如图:

分列操作
/
四步骤

经过一系列的操作,最后你能得到这样一张结构化的表:

 

前面有些地方会有替换处理不干净的,使用筛选功能,把串行的调整一下这样就完成了。

做下词云就能得到:

  

通过上面的操作,我们对这个群有了更深刻的了解,前面提到的两个问题,也有了解决办法。

对小采来说,还有一个收获:

我通过分析积极参与群聊的人,找到我群里的KOL,维护好他们就相当于维护好了我的社群。

词云图就无需过多解释了,高频词就是群成员关注的话题。

有一个地方提一下,群聊消息里面,有“@XXXX”这种内容,XXX是群成员的昵称。

如果你的词云图里某个成员的昵称出现了,那你要把这个人好好供起来了,他很大概率是群里最受欢迎的对象。

emmm,以上就是小采所采集的数据得到的结果,你也可以去操作一下,去找到独属于你群聊的kol!

 

评论(0) 引用(0) 浏览(90)

Powered by emlog