【东哥福利-新手必看】最新最全火车采集器V9版学习资料

作者:dong 发布于:2017-6-22 15:05 Thursday

最新最全火车采集器V9版学习帮助资料
新手必看
1、用户使用手册 http://www.locoy.com/index/guide
  PDF版下载:http://file.locoy.com/locoyspider/%E7%81%AB%E8%BD%A6%E9%87%87%E9%9B%86%E5%99%A8%E6%89%8B%E5%86%8C.pdf

2、视频教程
章节1:基本介绍
Lesson_1:火车采集器入门介绍 安装卸载:http://www.locoy.com/index/video_detail/cat_id/1
Lesson_2:一个简单的文章采集+发布演示:http://www.locoy.com/index/video_detail/cat_id/1/id/14

章节2:采集基础教程
Lesson_1:起始网址的设置:http://www.locoy.com/index/video_detail/cat_id/2
Lesson_2:[常规模式获取内容网址:http://www.locoy.com/index/video_detail/cat_id/2/id/11
Lesson_3:[高级模式]POST网址采集:http://www.locoy.com/index/video_detail/cat_id/2/id/12
Lesson_4:标签设置:http://www.locoy.com/index/video_detail/cat_id/2/id/15
Lesson_5:标签—数据处理:http://www.locoy.com/index/video_detail/cat_id/2/id/16
Lesson_6:标签—内容分页:http://www.locoy.com/index/video_detail/cat_id/2/id/17
Lesson_7:标签—内容循环设置http://www.locoy.com/index/video_detail/cat_id/2/id/18

章节3:发布基础教程
Lesson_1:WEB发布模块的制作:http://www.locoy.com/index/video_detail/cat_id/3/id/21
Lesson_2:数据库入库模块的配置:http://www.locoy.com/index/video_detail/cat_id/3/id/20
Lesson_3:保存为本地Txt,Word,Excel等文件:http://www.locoy.com/index/video_detail/cat_id/3/id/19

进阶教程
2016年最新直播录屏视频
火车采集器网址采集操作:http://www.locoy.com/index/video_detail/cat_id/11/id/22
火车采集器内容采集操作:http://www.locoy.com/index/video_detail/cat_id/11/id/23
火车采集器V9发布操作之web发布模块:http://www.locoy.com/index/video_detail/cat_id/11/id/24
火车采集器V9发布操作之保存本地文件:http://www.locoy.com/index/video_detail/cat_id/11/id/25
火车采集器V9发布操作之入库发布模块:http://www.locoy.com/index/video_detail/cat_id/11/id/26
火车采集器V9高级功能操作视频教程:http://www.locoy.com/index/video_detail/cat_id/11/id/27
火车采集器V9其他设置操作教程:http://www.locoy.com/index/video_detail/cat_id/11/id/28
火车采集器V9之论坛采集及Discuz论坛发布操作教程:http://www.locoy.com/index/video_detail/cat_id/11/id/29
火车采集器V9教程之插件介绍:http://www.locoy.com/index/video_detail/cat_id/11/id/30
真实案例规则分享讲解:
【东哥福利】火车采集器V9财富网业绩预告信息采集规则分享
【东哥福利】火车采集器V9住哪儿网酒店信息采集规则分享
【东哥福利】火车采集器V9安居客小区信息采集规则分享
【东哥福利】豆瓣电影采集规则及发布到本地CSV格式文件
【东哥福利】美女图片采集规则及DZ3.X门户发布规则分享
【东哥福利】火车采集器58同城招聘信息采集规则分享

【东哥福利】火车采集器软件-今日头条娱乐新闻采集规则
【东哥福利】火车采集器V9携程景点采集规则分享
【东哥福利】火车采集器V9京东商城商品信息采集规则分享

火车采集器V9常见问题/功能介绍集合
http://faq.locoy.com/qc-61.html?p=1
扫描二维码关注官方微信,每周分享更多技巧

联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy

评论(0) 引用(0) 浏览(2570)

抖音小视频采集,你爱的小姐姐信息都在这里!

作者:dong 发布于:2018-6-22 16:12 Friday

最近抖音有点火,自从内涵段子被永久封停过后,抖音似乎就进入了一个高速腾飞期。

即便是有着腾讯爸爸做后台的微视,也抵不过抖音15秒带来的惊人魔力。

既然抖音短视频热度这么高,今天我们就来看看俘虏了众多小哥哥小姐姐的抖音是如何进行数据采集的吧!

 

 

1. 通过分享视频网页源代码获取数据

所有互联网能看到的数据都是可以采集的,抖音肯定也不例外。

普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。

抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。分享后的网址为:

https://www.douyin.com/share/video/6564291888008924423(视频id号)。

 

我们右键视频页面查看其视频源码:

 

从源码中,可以详细的获取视频作者和视频详情信息等。例如以下:

上述信息均可以从分享的视频链接源码里获取。

运行程序结果为:

 

源代码中我们可以很清楚的看到视频名称和作者的信息。

有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。包括作者,

视频详情,视频封面,视频地址,视频宽度,视频高度,视频ID,作者头像,PageUrl等一个视频的完整信息。

如下图所示,这是我采集到的部分视频数据。

 

查看该分享视频的url构造可以发现非常的简单,仅由www.douyin.com 、share 、video 和6564291888008924423四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。

在实际操作中,抖音对其视频的ID都做了加密处理,简单递增视频ID构造的URL视频显然是不可能成功地。

但基本在通过Fiddler抓包获取的抖音数据时,你抓取到的字段值和命名方式就能暴露出很多东西了。

例子如下:

 

基本信息


risk_infos: 

风险信息:

warn: false, 

警告:否

risk_sink: false 

风险下降:否(字面翻译)

label_top: { 

 头部标签:

url_list: 

链接列表(链接打开是“示范”的图片)

uri: 

 资源标识,类似url不用管

author_user_id: 

 作者ID

rate: 12, 

等级:12

create_time: 1517579506,

创建时间,时间戳格式

视频信息


video: 

视频

ratio: "720p",

比率

origin_cover: 

 原始封面

url_list: 

视频封面的地址

uri: 


play_addr: 

视频地址

url_list: 


uri: 


cover: 

视频封面

url_list: 


uri: 


height: 

视频高度

width: 

视频宽度

bit_rate: 

视频码率

bit_rate: 337070,

视频码率

gear_name: "normal",

不知道啥:普通

quality_type: 0

质量类型

download_addr: 

下载地址

url_list: 


uri: 


has_watermark: true,

是否有水印

duration: 

视频时长

play_addr_lowbr: 

低画质视频地址

url_list:


uri: 


dynamic_cover: 

动态封面

url_list:


uri: 


aweme_id: 

视频ID

video_labels: [],

视频标签

is_vr: false,

是否VR:否(字面翻译)

vr_type: 1,

VR类型:1

统计数据


statistics: 


play_count: 50855809,

播放数

aweme_id: 

视频ID

comment_count: 17579,

评论数

share_count: 155218,

分享数

digg_count: 682154

点赞数

作者信息


author:

作者

share_qrcode_uri: 

分享快速响应码

avatar_larger: 

大头像

url_list:


uri: 


enterprise_verify_reason:

企业认证

original_music_qrcode: null

原创音乐码:空

story_open: false,

故事打开:否

live_verify: 0,

直播权限:0

short_id:

短ID:

account_region: "",

账户区域

reflow_page_gid: 0,

回流页面(字面翻译)

avatar_thumb: 

应该是头像缩略图

uri:


is_binded_weibo: false,

是否绑定微博:否

is_verified: true,

是否认证:是

hide_search: false,

是否隐藏搜索:否

risk_flag: 0,

风险标签:0

with_commerce_entry: false,

是否商业化:否

school_name: "",

学校名称:

custom_verify: "",

自定义认证:

special_lock: 1,

特殊锁?

shield_comment_notice: 0,

屏蔽评论通知:0

hide_location: false,

隐藏位置信息:否

gender: 1,

性别:男

star_use_new_download: false,


school_poi_id: "",

学校POI序号

weibo_schema: "",

微博概要

uid: 

用户ID

bind_phone: "",

绑定手机号:

weibo_url: "",

微博地址

weibo_name: "",

微博账号

commerce_user_level: 0,

商业等级:0

create_time: 1511582912,

创建时间

verify_info: "",

认证信息

constellation: 3,

星座:双子

community_discipline_status:  0,

社区纪律地位:0(字面翻译)

has_register_notice: 1,

已有注册信息:1

need_recommend: 1,

需要推荐:1

shield_digg_notice: 0,

屏蔽点赞通知

update_before: 0,

是否更新过:0

verification_type: 1,

认证类型:1

room_id: 0,

房间ID:0(应该是直播房间号)

avatar_medium:

头像(中)

url_list:


uri: 


authority_status: 0,

权重:0(字面意思权威等级)

enterprise_verify: false,

企业验证:否

reflow_page_uid: 0,

回流页ID:0

birthday:  "1992-06-16",

生日

is_ad_fake: false,

是否广告伪造:否(字面翻译)

nickname:  "

昵称:

shield_follow_notice: 0,

屏蔽关注通知:0

original_music_cover: null,

原创音乐标识:空

follow_status: 0,

粉丝等级:0(字面翻译)

region: "CN",

国家:CN

school_type: 0,

学校类型:0

avatar_uri: 

头像标识地址

signature: "有没有爱",

签名:

weibo_verify: "",

微博认证:

unique_id: ""

特殊ID:

视频信息:


cmt_swt: false,

不知道啥意思

share_url: 

分享链接

is_ads: false,

是否广告:否

音乐信息


status: 1,

等级:1(字面翻译)

extra:  "{\"has_edited\": 0}",

附加信息:是否编辑:0

is_original: false,

是否原创:否

offline_desc: "",

离线描述:(字面翻译)

source_platform: 22,

资源平台:22

audio_track: 

音轨:

url_list: 

URL打开为音频波形图

uri: 


cover_large: 

音频封面

url_list: 


uri: 


duration: 34,

时长:34

id: 


cover_thumb: 

封面缩略图

url_list:


uri: 


cover_hd:

高清封面

url_list:


uri: 


user_count: 0,

用户账号:

title: "粉红色的回忆",

标题

play_url: 

播放地址

url_list:


uri: "5fc00003ab


effects_data: 

效果数据

url_list:


uri:


author: 

音乐作者:

mid: 


cover_medium: 

封面(中)

url_list: 


uri: 


id_str: 

不知道啥意思

schema_url: ""

概要地址

不知道啥分类:


bodydance_score: 0,

节奏分数:0(字面翻译)

is_hash_tag: 0,

是否哈希标签:0(字面翻译)

视频状态:


status: 


with_goods: false,

有商品:否

is_delete: false,

是否删除:否

private_status: 0,

私有状态:0(设为自己可见)

allow_comment: true,

允许评论:是

allow_share: true,

允许分享:是

is_private: false

是否私有:否

sort_label: "_",

分类标签:_

分享信息:    


share_info: 


share_weibo_desc:  "",

微博分享描述

share_title: “",

分享标题:

share_url: 

分享链接

share_desc:  "在抖音,记录美好生活"

分享描述

is_top: 0,

是否置顶:0(字面翻译)

aweme_type: 0,

视频类型:0

desc: "",

视频描述:

region: "",

位置信息:

is_relieve: false,

是否缓存:否(字面翻译)

text_extra: [],

额外文本:空(字面翻译)

user_digged: 0

作者点赞:0

 

具体情况我就不举例了,如果你对自己账号的以上信息感兴趣,你也可以下载教程脚本,自己尝试去做一下!

评论(0) 引用(0) 浏览(25)

【笑cry】采集世界杯微博网友评论, 那些你不知道的世界杯小故事

作者:dong 发布于:2018-6-22 15:45 Friday

4年一次的世界杯终于要进入倒计时了,从来不爱看球只爱看网友吐槽世界杯段子的我也终于要将罪恶之手伸向世界杯这只纯洁的“赤裸小羔羊了”。今天我们来采集一些有关于世界杯的有趣数据。

但在下手之前我们先看一下本届世界杯场外场内那些令我们瞠目结舌的”骚操作“

场内:
A组

小组赛首轮战罢,谁能想到,

现在最有冠军相的不是梅西的阿根廷,

不是J罗的哥伦比亚,也不是内马尔的巴西,

而是普京的俄罗斯

 

在一众传统豪强遭遇冷门之后,仅仅只有德国是输掉比赛的那一支豪强。并且是所有欧洲球队中唯一没有进球的球队。

毕竟,卫冕冠军小组赛被淘汰可是专业的。

 

 

场外:
B组

比女人更善变的是一个沉迷于世界杯赌球的“甲方爸爸”,偷师习得卖土耳其冰淇淋球小哥的独门手艺,没人比他更秀啦!

C罗身上最性感的东西是什么我不知道,但看这老兄的手,心里突然慌得一批,怎莫办!我也好想摸,是C罗啊!(此处省略万千渴望表情)

2018俄罗斯世界杯

咳咳咳,话题有点歪,我们是一款正经的大数据采集器,上面的心声绝对不是我内心真正的想法(见仁见智)。

今天我们要做的是采集新浪微博超话“#世界杯吐槽大会#”的网友评论数据,分析网友们最感兴趣的世界杯吐槽点在哪里。

下文是小采精心烹饪的采集教程,望签收。

1、先打开我们要采集的新浪微博的界面,搜索#世界杯吐槽大会#超级话题,点击登入输入用户名和密码

接着打开网页,点击登入加元素写值步骤来完成操作

 

2、用循环加条件判断来判断页面是否加载完成

 

3、做浏览器设置允许弹出新的标签页,来实现后面都评论页面的采集

 

4、用滚动条加单次取值来取出所有的发文内容

 

5、通过对网站的分析,评论有三种情况:

(1)无评论

(2)评论少,无需点入详情页去采集评论

(3)评论多,需要点入详情页采集评论

所以要写多个判断来,应对不同的情况

若评论多则判断是否有

若有则点击查看更多,然后进去内容详情,用滚动条操作加单次取值,取出评论

之后用标签页操作回到列表页

若评论少则直接单次取值所有评论

采集之后点击下一页然后清空计数器,采集下一页评论

6、用变量处理加变量转换 得到我们要处理的文本变量

 

7、之后用中文分词功能来获取世界杯期间微博的高频词,看网友们对世界杯感兴趣的关键词

 

得到结果

处理一下上表中数据我们就可以看到这样一张图

 

从图中我们可以看到,日本队的胜出在中国网民心中影响颇大,毕竟,国足是中国球迷心中永远的痛,网上甚至有这种言论;

 

与日本一起被人提起的还有强队哥伦比亚,人们都很叹息,哥伦比亚竟然惜败日本,这只能说的确是时运不济了。

最令人意外的是本届世界杯“普京表情包”在中国网络上的病毒式走红,事情的起因是这样的。

本届世界杯的第一场比赛:

沙特阿拉伯 vs 俄罗斯。

赛前,众多球迷参与预测本场比赛的比分,

预测结果以2:0、2:1或3:1居多,

可谁也没想到,

沙特竟然被俄罗斯踢了个5:0…

先不说沙特球员心理是如何崩溃的,来说说两国领导。坐在看台上的两位大人物的戏,

绝对比赛场上的比赛还要精彩!

在图片左边的,就是沙特的王储,

坐在中间位置的,是国际足联主席因凡蒂诺,

在图片最右边的,是大名鼎鼎的俄罗斯总统普京。

你以为这三个人会老老实实看球吗?!

最终,

这场会面变成了普京摊手表演集锦…

准备好了吗?3,2,1,Action。

在俄罗斯1:0领先沙特时,

普京总统双手一摊,

随后和沙特王储握手。

 

这时他会说什么呢?

不要意思,我们先进一个热热场…

夹在中间的因凡蒂诺也跟着普京一起摊了摊手,

气氛略显尴尬…

而坐在一旁的沙特王储则表现的还算淡定,

毕竟才进一个球,还有翻盘的机会。

不久之后,俄罗斯就3:0领先沙特了,

这次因凡蒂诺反而先摊手表示,

不关我的事啊…

 

有网友表示,足联主席内心戏应该是这样的:

等到了5:0的时候,沙特王储脸上笑容逐渐消失…

普京再度摊开大手,

因凡蒂诺夹在中间根本不知道说什么好…

 

比赛结束后,

沙特王储和普京总统紧紧地拥抱了一下,

友谊第一,比赛第二,

有这样的风度也不愧为一国之首。

就是不知道明年俄罗斯油价是不是又要涨了…

评论(0) 引用(0) 浏览(15)

合肥乐维信息技术有限公司2018年端午节放假通知

作者:dong 发布于:2018-6-15 12:57 Friday

 

尊敬的合作伙伴、用户:

  根据国务院办公厅2018年节假日安排精神,现将我司2018年“端午”放假安排通知如下:

 

1. 2018年616日(星期)、617日(星期)、6月18日(端午节,星期)放假三天,2018619日(星期)正常上班。

2. 节假期间,用户有任何疑问均可给客服留言、提交售后工单或在论坛中进行咨询,我们上线后即会为您及时处理,乐维竭诚为您服务!


 节日期间提醒大家要注意出行安全祝大家端午安康,阖家团圆。

 

合肥乐维信息技术有限公司

2018年6月15日


评论(0) 引用(0) 浏览(46)

合肥乐维信息技术有限公司携手上海工程技术大学 共建数据获取与可视化联合实验室

作者:dong 发布于:2018-6-12 18:15 Tuesday

2018年6月11日下午,合肥乐维信息技术有限公司-上海工程技术大学共建“数据获取与可视化联合实验室”合作签约仪式在合肥乐维信息技术有限公司举行,上海工程技术大学电子电气工程学院计算机系副主任黄勃、讲师俞雷与带领的研究生团队参与此次会议,合肥乐维信息技术有限公司总经理李进斌先生、副总经理汶锐权、商务部主管徐小明代表乐维出席仪式并分别致辞。

5.jpg 

此次共建为实现“企校合作,产学研究紧密结合”,打造“国内一流、国际领先”的大数据挖掘技术研发、应用可视化和产业化基地,为全面提升合作双方的行业影响力和核心竞争力奠定了良好的开端。

据了解,“数据获取与可视化联合实验室”将在合肥乐维信息技术有限公司和上海工程技术大学电子电气工程学院分别挂牌成立。

41739.jpg 

双方强强联合,充分发挥各自行业领先优势,聚焦大数据领域、开展教育科研、人才培养和产品研发等多方面的合作。

此次建立联合实验室的目标是在互利互惠的基础上,重点突出数据信息化、智能化和可视化研究及应用实践。上海工程技术大学将申报开设全国首批大数据专业招生,将在大数据专业人才培养,大数据相关项目开展深入合作。

IMG_20180611_141916.jpg 

会后合作双方在公司进行合影,上海工程技术大学计算机系副主任黄勃积极肯定了校企“合作共赢”的理念,有利于加强产学研合作,感谢合肥乐维信息技术有限公司为电子电气工程学院所做的支持,希望“数据获取与可视化联合实验室”能依托高校的科研优势和乐维的数据挖掘技术,做好对大数据研究和应用的技术支撑,为大数据产业的发展壮大做出更大贡献。

评论(0) 引用(0) 浏览(79)

Powered by emlog