网页抓取工具助力传统企业弯道超车
作者:dong 发布于:2016-5-20 12:00 Friday 分类:官方公告
经过2015年的股灾和经济动荡,2016年我国似乎又迎来了新一轮的经济下行,过去,中国以投资带动经济增长,但这种模式造成了我国产能过剩和经济泡沫,所以必须另找增长新动力。正处低谷的传统企业能否在这场转型阵痛中弯道超车、深化改革,值得市场期待。
拉动内需和消费潜力
综合2015年的外汇、股市、房产、消费等领域,消费俨然成为我国经济的最大寄望,政府提出要以内需和消费带动经济增长。尽管这种转型极难,持续期又长,但改革却不能延后,否则未来要付出的代价可能会更大,当下如何拉动内需和消费成为首要难题。
互联网推动,大数据挖掘
说到拉动内需和消费,中国政府今年共投资了1800亿美元来发展互联网,有助于推动网购,加上中国新兴中产阶级人数越来越多,消费力迅速扩张,2016年消费估计将有可观增长。对比消费占据GDP八成的美国,他们每个家庭都有着超前的消费观念。而要带动中国消费,就必须促进人们的消费意识,深入挖掘国人内需,在内需挖掘方面利用“大数据”或可充分施展拳脚。
网页抓取工具让发展落地
促内需,增消费,说来轻松,对传统企业来说却并非易事,尤其对于中小型规模的企业,缺乏跨界融合的营销思维和市场适应性,也缺乏资金和大数据挖掘技术去完成这样的目标,以至于始终处在产业末链,甚至有被淘汰的风险,想要弯道超车难道只是空想?
网页抓取工具让这一切变得不那么遥远,从产品到服务到市场,无一不能寻求变通,而网页抓取工具——火车采集器就是帮助企业认识到哪些环节急需变通。那到底什么是网页抓取工具呢?它是一款网页公开数据的采集软件,用来获取和整合网页大数据(产品相关痕迹),比如产品销量、市场需求、竞品信息等。我们可以通过这些数据来寻求和支撑业务的转型,以传统中小型制造企业为例,产品口碑如何,哪里需要改进?采用市场调查耗时耗力,那就可以对网购平台的评价数据进行采集抓取,并汇总处理,从而得到产品的最佳升级方案。
同样对市场数据的采集,可以了解全网竞品的定价、营销活动等详情,做出市场营销、销售方式或服务模式的全面优化转型。对市场、产品、服务的把控是环环相扣的,网页抓取工具的盛行和互联网消费方式的丰富让这些数据的获取变得更加简单,也让基于网页数据的内需挖掘和消费促进变得更加切实可行。
现下的市场经济对转型要求迫切,低谷中的传统企业只有做对决策,选对新路才有可能弯道超车,取得全新突破。
网页抓取工具火车采集器发布模块制作示例
作者:dong 发布于:2016-5-3 16:03 Tuesday 分类:官方公告
何为WEB发布模块?即在使用火车采集器V9时将用户手动在网站后台发布内容的整个过程包含登录网站后台,选择栏目,以及发布文章等步骤写入火车采集器V9,由火车采集器来模拟,实现自动发布的功能,这就是WEB发布模块。然后规则采集到的值就通过标签名传递给在线发布模块,把数据提交到网站里去。这里以dedecms的文章发布为例做讲解,下面为操作示例:
一、点击web发布配置——新建模块
上图中的菜单分别为:
网站自动登录:设置网站登录信息的数据
获取栏目列表:设置发布的栏目列表
网页随机获取:设置post数据内的随机值
内容发布参数:设置发布页面POST数据包
高级功能:文件上传设置以及数据构造
二、“WEB发布设置界面”和 “内容发布参数” 设置
我们在发布页面填写好需要发布的字段值(先不要点击发布),然后打开fiddler(注意,如果有较乱的数据流,请先Ctrl+X 清空数据流)
如图,填写标题、来源、选择栏目、内容 :
Ctrl+X 清空数据流后的fiddler:
此时点击发布,分析fiddler里的数据包,将fiddler点击 ①➯ ② ,依次点击数据流列表⑤ 找到POST类型的数据流⑥,
然后点击⑦ 以文本的形式查看
数据包贴出如下:
POST http://127.0.0.1:801/dede/dede/article_add.php HTTP/1.1
Host: 127.0.0.1:801
Connection: keep-alive
Content-Length: 3571
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Origin: http://127.0.0.1:801
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36
Content-Type: multipart/form-data; boundary=----WebKitFormBoundary6EWX666GAXOVqWCE
Referer: http://127.0.0.1:801/dede/dede/article_add.php?channelid=1&cid=0
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.8
Cookie: menuitems=1_1%2C2_1%2C3_1; PHPSESSID=f21a42f70199c81955f3219623343735;
DedeUserID=1; DedeUserID__ckMd5=91a12e3e1eae3a4d; DedeLoginTime=1444806848;
DedeLoginTime__ckMd5=65d5fa4845a7ec00;
ENV_GOBACK_URL=%2Fdede%2Fdede%2Fcontent_list.php%3Fchannelid%3D1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="channelid"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="dopost"
save
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="title"
11111
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="shorttitle"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="redirecturl"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="tags"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="weight"
99
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="picname"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="litpic"; filename=""
Content-Type: application/octet-stream
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="source"
22222
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="writer"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="typeid"
2
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="typeid2"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="keywords"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="autokey"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="description"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="dede_addonfields"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="remote"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="autolitpic"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="needwatermark"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="sptype"
hand
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="spsize"
5
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="body"
222222222222222
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="voteid"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="notpost"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="click"
137
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="sortup"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="color"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="arcrank"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="money"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="pubdate"
2015-10-14 15:16:06
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="ishtml"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="filename"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="templet"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="imageField.x"
37
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="imageField.y"
18
------WebKitFormBoundary6EWX666GAXOVqWCE--
三、设置WEB发布配置界面
根据上面的数据包得出: 网站编码是:utf-8 (可以在您的网站右击查看源代码,查找charset字段值,具体看编码)
网站地址是: http://127.0.0.1:801/dede
(网站地址可以根据POST 和Referer字段自定义,一般我们用网站域名做网站地址,
也可以找其他的2个设置的共同部分做网站地址。 )
cookie是:menuitems=1_1%2C2_1%2C3_1; PHPSESSID=f21a42f70199c81955f3219623343735; DedeUserID=1; DedeUserID__ckMd5=91a12e3e1eae3a4d; DedeLoginTime=1444806848; DedeLoginTime__ckMd5=65d5fa4845a7ec00; ENV_GOBACK_URL=%2Fdede%2Fdede%2Fcontent_list.php%3Fchannelid%3D1
user-agent是: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36
四、设置 “内容发布参数”
如下图
然后我们把发布POST数据里的值替换成标签。双击选中表单值,然后鼠标悬停在标签按钮上,对应选择要替换成的标签名即可,
可选系统标签,常用标签,时间标签。如下图替换的效果:
标题,来源,内容,时间 很方便确认识别。
在这里给大家讲解下“[分类ID]” 系统标签。
此标签是用于接下来我们的获取栏目列表设置做铺垫的。
那么如何确定 哪个表单名 就是 [分类ID]呢?
可以按如下图的方法,就很简单的知道,typeid 就是我们要找的 [分类ID],给对应替换即可。
五、确定“获取栏目列表” 设置
首先要确定我们的选择栏目列表是在哪个页面?一般有两种情况:
A.最常见的一种,栏目选择就是在发布内容页面里,类似我们演示的DEDE文章发布。B.特殊的情况,在其它页面下,不在发布内容页面。
在这里我们讲解A种情况,把“内容发布参数” 下的来源页面后缀的设置,拿过来直接使用即可。放入到“获取栏目列表”
下的发表地址后缀,和来源页面后缀中。然后再查看发布页面的源代码,找到刷新列表部分的源码,
确定栏目列表的开始和结束代码,以及格式。
ID 用[分类ID]替换
栏目名称用 [分类名称]替换
不规则出现的代码 用 (*)通配符匹配
设置如图:
可以发布,说明我们的 “内容发布参数” 设置没问题。
现在我们保存发布模块,大概测试下发布效果,可以刷新列表,说明“获取栏目列表”的设置没有问题。
六、完善模块
成功,失败标识码:
可以看到在网站发布正常的内容,和发布失败的内容(比如不填写标题,不选择栏目)看看分别的提示,
然后写入模块设置,多个提示一行一个。
高级功能:
可以看到我们此模块有个 LITPIC 表单名字段,这是我们在“内容发布参数” 的黏贴POST数据时,自动提取的设置。
在这里,我们可以自定义修改标签名,如设置为缩略图。
文件上传设置里的标签,文件上传不需要设置FTP,只要下载到本地就可以实现自动上传操作。
网站自动登录:
之前我们做的发布是在登录方式为内置浏览器的原理基础上获取cookie和User-agent 来做发布的。
我们也可以用数据包登录的方式来设置。其设置原理和“内容发布参数”是一样的,
用fiddler工具抓取登录后台那一瞬间的POST数据包。
POST http://127.0.0.1:801/dede/dede/login.php HTTP/1.1
Host: 127.0.0.1:801
Connection: keep-alive
Content-Length: 112
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Origin: http://127.0.0.1:801
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36
Content-Type: application/x-www-form-urlencoded
Referer: http://127.0.0.1:801/dede/dede/login.php?gotopage=%2Fdede%2Fdede%2Findex.php
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.8
Cookie: menuitems=1_1%2C2_1%2C3_1; PHPSESSID=f21a42f70199c81955f3219623343735;
ENV_GOBACK_URL=%2Fdede%2Fdede%2Fcontent_list.php%3Fchannelid%3D1
gotopage=%2Fdede%2Fdede%2Findex.php&dopost=login&adminstyle=newdedecms&userid=admin&pwd=admin&validate=lcmt&sm1=
设置如下:
测试效果:
到这里就基本ok了,这样模块用内置浏览器登录或数据包登录都可以支持,一个完整的发布模块就完成了,如有疑问可以访问网页抓取工具火车采集器V9的官方网站(www.locoy.com)了解或咨询官方客服。
网页抓取工具带你走进大数据营销
作者:dong 发布于:2016-4-27 15:23 Wednesday 分类:官方公告
“大数据”这股强劲的风浪让多少个行业站上风口就瞬间起飞,至于能飞多久能飞多高则取决于风口这头“猪”的潜质,那么大数据营销作为大数据领域最具潜质的发展方向之一就不得不提了。无论是房产、零售还是电商等其他众多行业做新式营销似乎都必须涉及大数据,如今大数据营销的方向可谓是越来越接地气,但是你的大数据营销如何落地是否也更加接地气了呢?
网页抓取工具火车采集器V9,一款可以轻松抓取、解析和处理全球网页数据的软件,让大数据营销快速成为你的基本能力。
那么什么是网页抓取工具呢?先从网页大数据说起,我们做营销时所需的大数据多来自公开的互联网和其他录入型设备,比如客户画像,是基于客户网络行为和公开资料的整合,如果据此得出某款青春系汽车的受众是30岁左右的女白领,那么就可以对其进行广告的精准推送了。而网页抓取工具火车采集器V9就是可以用来提取互联网中的那些行为记录和公开资料的软件。
火车采集器在提取数据时支持文字、图片、及其他文件类型的信息,所以互联网中我们能够看到的内容几乎都可以进行抓取,举个电商的例子吧,某宝中热卖的一款商品,我们能够使用火车采集器抓取到的内容有:宝贝名称、价格、图片、宝贝详情、销量、买家评价、买家星级、卖家评分等;在全部销售店家数据的基础上,我们可以进行分析对比,得出宝贝名称中出现什么关键词会有助优化搜索,价格幅度如何设置能够得到最佳销量,该商品的买家评价如何,受众是何类消费能力的群体……
上面的例子仅为网页抓取工具火车采集器的一类应用,火车采集器V9全网通用的特性,决定了其能够应对社交、金融、媒体等方方面面。除了抓取数据之外,独特的网页抓取工具火车采集器V9还提供强大的数据处理和发布功能,这些特色用途的操作都能够在用户的学习尝试下快速上手,帮助我们在技术知识相对薄弱的情况下,也能轻松高效地掌握大数据营销新技能,真正让大数据营销全民化。
掌握了网页抓取工具火车采集器,大数据营销今后就可以在其协作下变得轻松、高效。为顺应大数据整体生态系统的发展需求,我们必须找到区别与以往的重大突破点,这可能是一项技术,一种思维,一类方法,或者仅仅是一个好用的网页抓取工具。
网页抓取工具抓取图片时如何加减水印
作者:dong 发布于:2016-4-22 15:08 Friday 分类:官方公告
网页抓取工具火车采集器V9不仅可以采集网址和文字,还可以对文件和图片进行抓取,并且抓取到的图片还支持进行水印的增加和去除操作。这里增加的水印既可以是文字形式也可以是图片形式,用起来非常方便。但是需要提醒大家的是,去除水印时网页抓取工具采用的是以更大的水印进行遮盖的方法,否则水印的去除操作是相当复杂的。
下面就来了解一下网页抓取工具如何操作水印吧,打开网页抓取工具火车采集器V9,进入其他设置,其中文件图片下载功能中有下载同时水印的功能,点击“+”添加即可操作。
设置水印:点击“添加”按钮,就会弹出下图的界面,左侧是我们放了一张测试用图片,来看效果的,右侧是水印的相关设置。
文字水印:如果你只需要给图片添加文字水印,就勾选水印文字栏,点击“特效”按钮,可以设置文字的位置、字体、特效等等,没有用过的朋友可以设置下看看效果。
图片水印:如果你是想要选择一个图片做为水印就按照下面的图做,点击“浏览”按钮后选择本地图片,选择后可以选择水印的位置和图片的透明度,然后试看下效果。
水印高级选项:可以对需要添加水印的图片进行大小限制,一般较小的图片我们就不建议进行水印设置了,效果不十分明显。
保存选项:网页抓取工具支持对添加水印的图片按照一定的比例设置压缩,根据自己的需求来设置就可以了,图片的保存格式也是可以选择的,充分考虑了不同用户的使用需求。
如果我们在抓取数据的过程中下载了大量的图片,那下载完再依次进行水印的相关操作就太繁琐了,而网页抓取工具火车采集器V9提供的这项功能的确非常方便,能够帮助我们在下载图片的同时自动添加或覆盖原先的水印。省时省力,提高网页抓取效率。
网页抓取工具助力大数据基础建设
作者:dong 发布于:2016-4-13 14:29 Wednesday 分类:官方公告
几年前大数据带着一层神秘面纱走进了人们的视野,在“大数据”一词被炒至顶峰的一段时间里,人们甚至言必谈及大数据。如今大数据发展可谓是越来越接地气,各行各业开展相关应用的可行性较之以前高了很多。但是发展大数据的过程中,若想将其变成一种基本能力,基础数据建设仍是不可忽视的环节,一款可以轻松抓取和解析全球网页数据的网页抓取工具,就更加必不可少了。
网页抓取工具是什么?我们日常所需的大数据多来自公开的互联网和其他录入型设备,对其中体量最为庞大的互联网来说,网页抓取工具就是用来提取互联网中的数据。
基于互联网数据海量的特性,网页抓取工具必须满足的条件之一就是高效。所以市场中最高效的网页抓取工具火车采集器V9采用的就是源代码提取的方式,这种提取方式不需要将数据经过浏览器的解析,而是直接抽取web结构。除此之外,火车采集器V9对整个数据提取流程做了最简化梳理,使得其在提取速度提升的基础上操作也能更加高效。
网页抓取工具是否免费?最令大数据需求群体关注的问题除效率和易用性之外,就是工具是否免费使用。网页抓取工具火车采集器V9免费版,目前已经积累了40多万用户,每天响应客户端都在一万以上,这也从侧面说明了火车采集器软件和服务器的稳定性。
网页抓取工具还有其他用途吗?区别于一些小众的采集工具,火车采集器V9不仅仅提供强大的数据抓取功能,还有强大的数据处理和发布功能,这些特色用途的操作都十分简单易用,可以根据教程的指导快速上手,帮助我们在技术知识相对薄弱的情况下,也能轻松高效地处理数据和发布数据。而无需再煞费苦心地研究代码或是寻求其他的技术支持了,所以选择一款好用的网页抓取工具是十分必要的。
学会了网页抓取工具,大数据的基础数据建设今后可以在其协作下变得轻松、高效。为能更好地适应大数据生态系统的发展需求,我们必须紧跟时代潮流的脚步,及时拓展和发散思维,不墨守成规,用超前的视角去发掘,用坚定的信念去执行。
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。