十周年钜惠,火车采集器七月大优惠来啦!
作者:dong 发布于:2018-7-18 16:52 Wednesday
十周年钜惠
7月火车采集器给你一个不能拒绝的购买理由
什么样的优惠,一般人都找不到?
新用户优惠券?老用户续费折扣?
or新人注册专享优惠?
No No No
今天小采要给大家揭晓的是
火车采集器官方活动页面
http://www.locoy.com/activity/tenyears
正在火热上线的
合肥乐维信息技术有限公司成立十周年庆典活动
活动优惠有多大?
10年最低,仅此一次 ;一次爽购,惠享终生!
续费升级——感恩有你,豪礼相送
活动时间:7月18日-7月31日
活动规则:全新版本,智能高效
注. 活动说明:
1.活动期间购买软件的用户,不享受本次续费升级优惠。
2.活动折扣购买软件的用户,均不赠送采集规则和发布模块等服务。
热门抢购——史上最低,折扣惊人
活动时间:7月18日-7月31日
活动规则: 一次购买,终生使用
注. 活动说明:
1.一个账户同版本折扣限购3套(限6折与7折券),领取后3小时内未购买将失效。
2.活动期间购买软件的用户,不可叠加使用本次续费升级优惠。
3.活动折扣购买软件的用户,均不赠送采集规则和发布模块等服务。
4.活动期间办理购买不退不换。
除上述活动折扣外,更有惊喜优惠
新用户注册
活动时间:7月18日-7月31日
使用规则:
1.通过此网页报名参与后,购买才生效。
2.一个ID限一次,只限用户购买软件使用。
这么多惊喜好礼全在火车采集器十周年庆典
小采的老板交代了
不优惠、不打折的我们不做活动营销
惊喜折扣单数有限,先到先得噢
话不多说,快调好闹钟蹲守你看中的优惠券吧
干巴爹!
(PS:此活动仅在PC端有效)
合肥乐维信息技术有限公司受邀参与全国高校人工智能与大数据创新联盟系列巡讲活动
作者:dong 发布于:2018-7-11 9:30 Wednesday
7月6日,合肥乐维信息技术有限公司受邀参加全国高校人工智能与大数据创新联盟系列巡讲活动。
第一站:走进“上海工程技术大学”,来自全国各地高校的专家教授、企业负责人等30余人齐聚一堂.
此次乐维副总经理汶锐权先生代表乐维公司参加此次会议,就人工智能和大数据专题和专家们开展了内容丰富的交流研讨活动。
座谈会活动现场
上午8:30,巡讲论坛准时开始,会议由联盟副秘书长、上海工程技术大学电子电气工程学院副教授黄润才主持。
活动开始,上海工程技术大学教务处负责人郭辉副处长代表学校对各位来宾表示热烈的欢迎并亲切问候。
随后,承办方电子电气工程学院院长、联盟副理事长方志军教授在演讲中,介绍了学院的相关历史及近年来科研领域的相关成绩。
接下来,联盟副理事长、上海科技大学图书信息中心总工程师孙名松教授、联盟理事、哈尔滨工程大学自动化学院——莫宏伟教授、联盟副理长、华东政法大学政治学研究院院长——高奇琦教授也一一发表自己的见解。
上海工程技术大学教务处负责人 郭辉副处长
联盟副理长、华东政法大学政治学研究院院长 高奇琦教授
本次活动由全国高校人工智能与大数据创新联盟主办,上海工程技术大学电子电气工程学院、上海工程技术大学人工智能产业研究院承办。
合肥乐维技术有限公司很荣幸受邀参加这次活动,作为此次会议为数不多的大数据企业,更是中国企业排行榜互联网大数据采集领域名列前茅者,十余年来深耕互联网大数据采集领域,是全国知名大数据采集品牌,旗下核心产品“火车采集器”是当前国内主流数据采集器中的佼佼者。
一直以来乐维都致力于大数据采集、数据存储及分析挖掘行业,为广大站长和中小企业客户提供真实可靠的数据技术服务。
合肥乐维信息技术有限公司副总经理 汶锐权
副总经理汶锐权先生在此次巡讲活动中分享的主题是“数据获取技术及其应用”,为高校及企业用户开发分布式采集平台,提供互联网+数据抓取服务。为高校学科建设及实验平台的应用提供了有效的途径,得到了与会教师及企业领导人的一致好评。
此前,合肥乐维信息技术有限公司曾与上海工程技术大学于2018年6月1日举办了合肥乐维信息技术有限公司-上海工程技术大学共建“数据获取与可视化联合实验室”合作签约仪式,双方就有关大数据挖掘获取方面展开深入合作。具体详情链接如下:
http://www.locoy.com/index/news_detail/id/518
如图,上图是合肥乐维信息技术有限公司与上海工程技术大学联合建立的“数据获取与可视化联合实验室”
此次巡讲活动中,合肥乐维也充分展示了互联网采集行业自主品牌“火车采集器”、“火车浏览器”等系列产品,吸引了在场参会人员研究讨论。合肥乐维专业从事互联网大数据采集领域十二年,是大数据采集行业的优秀“领航者”。
下午,与会人员参观了承办方(电子电气工程学院)建立的智能感知与控制国际联合实验室,随后在院方的带领下大家还饶有兴致地登高赏景,为整个活动画上了圆满的句号
活动拓展链接:http://seee.sues.edu.cn/49/6b/c10984a149867/page.htm
抖音小视频采集,你爱的小姐姐信息都在这里!
作者:dong 发布于:2018-6-22 16:12 Friday
最近抖音有点火,自从内涵段子被永久封停过后,抖音似乎就进入了一个高速腾飞期。
即便是有着腾讯爸爸做后台的微视,也抵不过抖音15秒带来的惊人魔力。
既然抖音短视频热度这么高,今天我们就来看看俘虏了众多小哥哥小姐姐的抖音是如何进行数据采集的吧!
所有互联网能看到的数据都是可以采集的,抖音肯定也不例外。
普通情况下,我们使用爬虫采集网络信息的时候是基于其网站的前端代码,也就是你在任意位置鼠标右键—查看网页源代码看到的那些。
抖音的视频都在APP上,我们没法查看他的源代码。好在抖音可以分享到微信然后使用浏览器打开查看。分享后的网址为:
https://www.douyin.com/share/video/6564291888008924423(视频id号)。
我们右键视频页面查看其视频源码:
从源码中,可以详细的获取视频作者和视频详情信息等。例如以下:
上述信息均可以从分享的视频链接源码里获取。
运行程序结果为:
源代码中我们可以很清楚的看到视频名称和作者的信息。
有趣的是,本来其他人不可见的视频播放数据,前端代码中也做了展示。包括作者,
视频详情,视频封面,视频地址,视频宽度,视频高度,视频ID,作者头像,PageUrl等一个视频的完整信息。
如下图所示,这是我采集到的部分视频数据。
查看该分享视频的url构造可以发现非常的简单,仅由www.douyin.com 、share 、video 和6564291888008924423四个部分组成,其中前三部分是固定的,唯一变化的是最后一部分视频ID。按照正常的爬虫逻辑,我们只需要使用脚本不断递增该ID,即可实现遍历所有的视频。
在实际操作中,抖音对其视频的ID都做了加密处理,简单递增视频ID构造的URL视频显然是不可能成功地。
但基本在通过Fiddler抓包获取的抖音数据时,你抓取到的字段值和命名方式就能暴露出很多东西了。
例子如下:
基本信息 |
|
risk_infos: |
风险信息: |
warn: false, |
警告:否 |
risk_sink: false |
风险下降:否(字面翻译) |
label_top: { |
头部标签: |
url_list: |
链接列表(链接打开是“示范”的图片) |
uri: |
资源标识,类似url不用管 |
author_user_id: |
作者ID |
rate: 12, |
等级:12 |
create_time: 1517579506, |
创建时间,时间戳格式 |
视频信息 |
|
video: |
视频 |
ratio: "720p", |
比率 |
origin_cover: |
原始封面 |
url_list: |
视频封面的地址 |
uri: |
|
play_addr: |
视频地址 |
url_list: |
|
uri: |
|
cover: |
视频封面 |
url_list: |
|
uri: |
|
height: |
视频高度 |
width: |
视频宽度 |
bit_rate: |
视频码率 |
bit_rate: 337070, |
视频码率 |
gear_name: "normal", |
不知道啥:普通 |
quality_type: 0 |
质量类型 |
download_addr: |
下载地址 |
url_list: |
|
uri: |
|
has_watermark: true, |
是否有水印 |
duration: |
视频时长 |
play_addr_lowbr: |
低画质视频地址 |
url_list: |
|
uri: |
|
dynamic_cover: |
动态封面 |
url_list: |
|
uri: |
|
aweme_id: |
视频ID |
video_labels: [], |
视频标签 |
is_vr: false, |
是否VR:否(字面翻译) |
vr_type: 1, |
VR类型:1 |
统计数据 |
|
statistics: |
|
play_count: 50855809, |
播放数 |
aweme_id: |
视频ID |
comment_count: 17579, |
评论数 |
share_count: 155218, |
分享数 |
digg_count: 682154 |
点赞数 |
作者信息 |
|
author: |
作者 |
share_qrcode_uri: |
分享快速响应码 |
avatar_larger: |
大头像 |
url_list: |
|
uri: |
|
enterprise_verify_reason: |
企业认证 |
original_music_qrcode: null |
原创音乐码:空 |
story_open: false, |
故事打开:否 |
live_verify: 0, |
直播权限:0 |
short_id: |
短ID: |
account_region: "", |
账户区域 |
reflow_page_gid: 0, |
回流页面(字面翻译) |
avatar_thumb: |
应该是头像缩略图 |
uri: |
|
is_binded_weibo: false, |
是否绑定微博:否 |
is_verified: true, |
是否认证:是 |
hide_search: false, |
是否隐藏搜索:否 |
risk_flag: 0, |
风险标签:0 |
with_commerce_entry: false, |
是否商业化:否 |
school_name: "", |
学校名称: |
custom_verify: "", |
自定义认证: |
special_lock: 1, |
特殊锁? |
shield_comment_notice: 0, |
屏蔽评论通知:0 |
hide_location: false, |
隐藏位置信息:否 |
gender: 1, |
性别:男 |
star_use_new_download: false, |
|
school_poi_id: "", |
学校POI序号 |
weibo_schema: "", |
微博概要 |
uid: |
用户ID |
bind_phone: "", |
绑定手机号: |
weibo_url: "", |
微博地址 |
weibo_name: "", |
微博账号 |
commerce_user_level: 0, |
商业等级:0 |
create_time: 1511582912, |
创建时间 |
verify_info: "", |
认证信息 |
constellation: 3, |
星座:双子 |
community_discipline_status: 0, |
社区纪律地位:0(字面翻译) |
has_register_notice: 1, |
已有注册信息:1 |
need_recommend: 1, |
需要推荐:1 |
shield_digg_notice: 0, |
屏蔽点赞通知 |
update_before: 0, |
是否更新过:0 |
verification_type: 1, |
认证类型:1 |
room_id: 0, |
房间ID:0(应该是直播房间号) |
avatar_medium: |
头像(中) |
url_list: |
|
uri: |
|
authority_status: 0, |
权重:0(字面意思权威等级) |
enterprise_verify: false, |
企业验证:否 |
reflow_page_uid: 0, |
回流页ID:0 |
birthday: "1992-06-16", |
生日 |
is_ad_fake: false, |
是否广告伪造:否(字面翻译) |
nickname: " |
昵称: |
shield_follow_notice: 0, |
屏蔽关注通知:0 |
original_music_cover: null, |
原创音乐标识:空 |
follow_status: 0, |
粉丝等级:0(字面翻译) |
region: "CN", |
国家:CN |
school_type: 0, |
学校类型:0 |
avatar_uri: |
头像标识地址 |
signature: "有没有爱", |
签名: |
weibo_verify: "", |
微博认证: |
unique_id: "" |
特殊ID: |
视频信息: |
|
cmt_swt: false, |
不知道啥意思 |
share_url: |
分享链接 |
is_ads: false, |
是否广告:否 |
音乐信息 |
|
status: 1, |
等级:1(字面翻译) |
extra: "{\"has_edited\": 0}", |
附加信息:是否编辑:0 |
is_original: false, |
是否原创:否 |
offline_desc: "", |
离线描述:(字面翻译) |
source_platform: 22, |
资源平台:22 |
audio_track: |
音轨: |
url_list: |
URL打开为音频波形图 |
uri: |
|
cover_large: |
音频封面 |
url_list: |
|
uri: |
|
duration: 34, |
时长:34 |
id: |
|
cover_thumb: |
封面缩略图 |
url_list: |
|
uri: |
|
cover_hd: |
高清封面 |
url_list: |
|
uri: |
|
user_count: 0, |
用户账号: |
title: "粉红色的回忆", |
标题 |
play_url: |
播放地址 |
url_list: |
|
uri: "5fc00003ab |
|
effects_data: |
效果数据 |
url_list: |
|
uri: |
|
author: |
音乐作者: |
mid: |
|
cover_medium: |
封面(中) |
url_list: |
|
uri: |
|
id_str: |
不知道啥意思 |
schema_url: "" |
概要地址 |
不知道啥分类: |
|
bodydance_score: 0, |
节奏分数:0(字面翻译) |
is_hash_tag: 0, |
是否哈希标签:0(字面翻译) |
视频状态: |
|
status: |
|
with_goods: false, |
有商品:否 |
is_delete: false, |
是否删除:否 |
private_status: 0, |
私有状态:0(设为自己可见) |
allow_comment: true, |
允许评论:是 |
allow_share: true, |
允许分享:是 |
is_private: false |
是否私有:否 |
sort_label: "_", |
分类标签:_ |
分享信息: |
|
share_info: |
|
share_weibo_desc: "", |
微博分享描述 |
share_title: “", |
分享标题: |
share_url: |
分享链接 |
share_desc: "在抖音,记录美好生活" |
分享描述 |
is_top: 0, |
是否置顶:0(字面翻译) |
aweme_type: 0, |
视频类型:0 |
desc: "", |
视频描述: |
region: "", |
位置信息: |
is_relieve: false, |
是否缓存:否(字面翻译) |
text_extra: [], |
额外文本:空(字面翻译) |
user_digged: 0 |
作者点赞:0 |
具体情况我就不举例了,如果你对自己账号的以上信息感兴趣,你也可以下载教程脚本,自己尝试去做一下!
联系我们
客服QQ:800019423
客服电话:400-8757-060
软件购买:http://www.locoy.com/buy
【笑cry】采集世界杯微博网友评论, 那些你不知道的世界杯小故事
作者:dong 发布于:2018-6-22 15:45 Friday
4年一次的世界杯终于要进入倒计时了,从来不爱看球只爱看网友吐槽世界杯段子的我也终于要将罪恶之手伸向世界杯这只纯洁的“赤裸小羔羊了”。今天我们来采集一些有关于世界杯的有趣数据。
但在下手之前我们先看一下本届世界杯场外场内那些令我们瞠目结舌的”骚操作“。
小组赛首轮战罢,谁能想到,
现在最有冠军相的不是梅西的阿根廷,
不是J罗的哥伦比亚,也不是内马尔的巴西,
而是普京的俄罗斯
在一众传统豪强遭遇冷门之后,仅仅只有德国是输掉比赛的那一支豪强。并且是所有欧洲球队中唯一没有进球的球队。
毕竟,卫冕冠军小组赛被淘汰可是专业的。
比女人更善变的是一个沉迷于世界杯赌球的“甲方爸爸”,偷师习得卖土耳其冰淇淋球小哥的独门手艺,没人比他更秀啦!
C罗身上最性感的东西是什么我不知道,但看这老兄的手,心里突然慌得一批,怎莫办!我也好想摸,是C罗啊!(此处省略万千渴望表情)
2018俄罗斯世界杯
咳咳咳,话题有点歪,我们是一款正经的大数据采集器,上面的心声绝对不是我内心真正的想法(见仁见智)。
今天我们要做的是采集新浪微博超话“#世界杯吐槽大会#”的网友评论数据,分析网友们最感兴趣的世界杯吐槽点在哪里。
1、先打开我们要采集的新浪微博的界面,搜索#世界杯吐槽大会#超级话题,点击登入输入用户名和密码
接着打开网页,点击登入加元素写值步骤来完成操作
2、用循环加条件判断来判断页面是否加载完成
3、做浏览器设置允许弹出新的标签页,来实现后面都评论页面的采集
4、用滚动条加单次取值来取出所有的发文内容
5、通过对网站的分析,评论有三种情况:
(1)无评论
(2)评论少,无需点入详情页去采集评论
(3)评论多,需要点入详情页采集评论
所以要写多个判断来,应对不同的情况
若评论多则判断是否有
若有则点击查看更多,然后进去内容详情,用滚动条操作加单次取值,取出评论
之后用标签页操作回到列表页
若评论少则直接单次取值所有评论
采集之后点击下一页然后清空计数器,采集下一页评论
6、用变量处理加变量转换 得到我们要处理的文本变量
7、之后用中文分词功能来获取世界杯期间微博的高频词,看网友们对世界杯感兴趣的关键词
得到结果
处理一下上表中数据我们就可以看到这样一张图
从图中我们可以看到,日本队的胜出在中国网民心中影响颇大,毕竟,国足是中国球迷心中永远的痛,网上甚至有这种言论;
与日本一起被人提起的还有强队哥伦比亚,人们都很叹息,哥伦比亚竟然惜败日本,这只能说的确是时运不济了。
最令人意外的是本届世界杯“普京表情包”在中国网络上的病毒式走红,事情的起因是这样的。
本届世界杯的第一场比赛:
沙特阿拉伯 vs 俄罗斯。
赛前,众多球迷参与预测本场比赛的比分,
预测结果以2:0、2:1或3:1居多,
可谁也没想到,
沙特竟然被俄罗斯踢了个5:0…
先不说沙特球员心理是如何崩溃的,来说说两国领导。坐在看台上的两位大人物的戏,
绝对比赛场上的比赛还要精彩!
在图片左边的,就是沙特的王储,
坐在中间位置的,是国际足联主席因凡蒂诺,
在图片最右边的,是大名鼎鼎的俄罗斯总统普京。
你以为这三个人会老老实实看球吗?!
最终,
这场会面变成了普京摊手表演集锦…
准备好了吗?3,2,1,Action。
在俄罗斯1:0领先沙特时,
普京总统双手一摊,
随后和沙特王储握手。
这时他会说什么呢?
不要意思,我们先进一个热热场…
夹在中间的因凡蒂诺也跟着普京一起摊了摊手,
气氛略显尴尬…
而坐在一旁的沙特王储则表现的还算淡定,
毕竟才进一个球,还有翻盘的机会。
不久之后,俄罗斯就3:0领先沙特了,
这次因凡蒂诺反而先摊手表示,
不关我的事啊…
有网友表示,足联主席内心戏应该是这样的:
等到了5:0的时候,沙特王储脸上笑容逐渐消失…
普京再度摊开大手,
因凡蒂诺夹在中间根本不知道说什么好…
比赛结束后,
沙特王储和普京总统紧紧地拥抱了一下,
友谊第一,比赛第二,
有这样的风度也不愧为一国之首。
就是不知道明年俄罗斯油价是不是又要涨了…
合肥乐维信息技术有限公司2018年端午节放假通知
作者:dong 发布于:2018-6-15 12:57 Friday
尊敬的合作伙伴、用户:
根据国务院办公厅2018年节假日安排精神,现将我司2018年“端午”放假安排通知如下:
1. 2018年6月16日(星期六)、6月17日(星期日)、6月18日(端午节,星期一)放假三天,2018年6月19日(星期二)正常上班。
2. 节假期间,用户有任何疑问均可给客服留言、提交售后工单或在论坛中进行咨询,我们上线后即会为您及时处理,乐维竭诚为您服务!
节日期间提醒大家要注意出行安全,祝大家端午安康,阖家团圆。
合肥乐维信息技术有限公司
2018年6月15日
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。