网页图片采集器FTP/SFTP文件上传
作者:dong 发布于:2016-5-11 14:42 Wednesday 分类:官方公告
我们在使用网页图片采集器的过程中,有时还需要将采集到的图片文件上传,以火车采集器V9为例,为大家讲解FTP/SFTP文件上传功能。在火车采集器V9中,此项功能包含不上传,使用FTP上传,使用SSH上传三种模式。用户填写服务器、用户名、密码、端口、文件上传根目录等信息即可。
下面具体讲解:如何设置FTP文件上传根目录和文件下载路径?我们以采集 http://www.22mm.cc/mm/jingyan/gbijcced_lelja.html为例,采集并下载它的图片然后通过ftp设置上传。
(1)采集到图片并下载
据处理--文件下载--勾选下载图片,其他不做任何设置。
下载如下:
(2)分析图片格式,设置文件保存目录,文件保存格式,文件链接地址前缀
此时需要您在您的网站上正常手工发布一条包含图片的数据,看下图片格式。例如其中图片路径是:http://www.locoy.com/images/201510/1.jpg
下面我们来将其拆分为 头+中+尾 三部分
头: http://www.locoy.com/ 是网站域名;
中: images/201510/ 是文件路径,201510是年月的意思
尾: 1.jpg 是文件名和后缀
所以:
其他设置--文件图片下载--文件链接地址前缀:设置为 http://www.locoy.com/
内容采集规则--数据处理--文件下载--文件保存目录:设置为 images/201510/
内容采集规则--数据处理--文件下载--文件保存格式:设置为 [
原文件名]
或者[
自增ID]
等等自定义文件名
如下图:
此时我们需要在绿色字体前加 \ 做转义,年月做替换,故是下图设置效果:
(3)确定FTP的路径
用其他专业的FTP工具看我们的图片存储路径,比如显示为 /www/locoy/images/201510/ 那么
那么采集器FTP文件上传根目录,这里写成这样/www/locoy
/就OK 了,如下图:
不要重复的把/images/201510/ 写上,因为在内容采集规则--数据处理--文件下载--文件保存目录设置里,我们已经定义了路径,软件会自动创建对应文件夹,并识别发布,所以大家不要写重复了。
(4)测试看效果
设置完成后,我们测试看下效果:
这样就说明设置好了,FTP上传测试需要正式运行规则时生效。网页图片采集器火车采集器V9的FTP文件上传功能稳定性很好,可断点续传,比较适合上传大文件或一次上传很多文件,值得大家学习使用。
网页抓取工具火车采集器发布模块制作示例
作者:dong 发布于:2016-5-3 16:03 Tuesday 分类:官方公告
何为WEB发布模块?即在使用火车采集器V9时将用户手动在网站后台发布内容的整个过程包含登录网站后台,选择栏目,以及发布文章等步骤写入火车采集器V9,由火车采集器来模拟,实现自动发布的功能,这就是WEB发布模块。然后规则采集到的值就通过标签名传递给在线发布模块,把数据提交到网站里去。这里以dedecms的文章发布为例做讲解,下面为操作示例:
一、点击web发布配置——新建模块
上图中的菜单分别为:
网站自动登录:设置网站登录信息的数据
获取栏目列表:设置发布的栏目列表
网页随机获取:设置post数据内的随机值
内容发布参数:设置发布页面POST数据包
高级功能:文件上传设置以及数据构造
二、“WEB发布设置界面”和 “内容发布参数” 设置
我们在发布页面填写好需要发布的字段值(先不要点击发布),然后打开fiddler(注意,如果有较乱的数据流,请先Ctrl+X 清空数据流)
如图,填写标题、来源、选择栏目、内容 :
Ctrl+X 清空数据流后的fiddler:
此时点击发布,分析fiddler里的数据包,将fiddler点击 ①➯ ② ,依次点击数据流列表⑤ 找到POST类型的数据流⑥,
然后点击⑦ 以文本的形式查看
数据包贴出如下:
POST http://127.0.0.1:801/dede/dede/article_add.php HTTP/1.1
Host: 127.0.0.1:801
Connection: keep-alive
Content-Length: 3571
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Origin: http://127.0.0.1:801
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36
Content-Type: multipart/form-data; boundary=----WebKitFormBoundary6EWX666GAXOVqWCE
Referer: http://127.0.0.1:801/dede/dede/article_add.php?channelid=1&cid=0
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.8
Cookie: menuitems=1_1%2C2_1%2C3_1; PHPSESSID=f21a42f70199c81955f3219623343735;
DedeUserID=1; DedeUserID__ckMd5=91a12e3e1eae3a4d; DedeLoginTime=1444806848;
DedeLoginTime__ckMd5=65d5fa4845a7ec00;
ENV_GOBACK_URL=%2Fdede%2Fdede%2Fcontent_list.php%3Fchannelid%3D1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="channelid"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="dopost"
save
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="title"
11111
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="shorttitle"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="redirecturl"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="tags"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="weight"
99
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="picname"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="litpic"; filename=""
Content-Type: application/octet-stream
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="source"
22222
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="writer"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="typeid"
2
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="typeid2"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="keywords"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="autokey"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="description"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="dede_addonfields"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="remote"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="autolitpic"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="needwatermark"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="sptype"
hand
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="spsize"
5
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="body"
222222222222222
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="voteid"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="notpost"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="click"
137
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="sortup"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="color"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="arcrank"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="money"
0
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="pubdate"
2015-10-14 15:16:06
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="ishtml"
1
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="filename"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="templet"
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="imageField.x"
37
------WebKitFormBoundary6EWX666GAXOVqWCE
Content-Disposition: form-data; name="imageField.y"
18
------WebKitFormBoundary6EWX666GAXOVqWCE--
三、设置WEB发布配置界面
根据上面的数据包得出: 网站编码是:utf-8 (可以在您的网站右击查看源代码,查找charset字段值,具体看编码)
网站地址是: http://127.0.0.1:801/dede
(网站地址可以根据POST 和Referer字段自定义,一般我们用网站域名做网站地址,
也可以找其他的2个设置的共同部分做网站地址。 )
cookie是:menuitems=1_1%2C2_1%2C3_1; PHPSESSID=f21a42f70199c81955f3219623343735; DedeUserID=1; DedeUserID__ckMd5=91a12e3e1eae3a4d; DedeLoginTime=1444806848; DedeLoginTime__ckMd5=65d5fa4845a7ec00; ENV_GOBACK_URL=%2Fdede%2Fdede%2Fcontent_list.php%3Fchannelid%3D1
user-agent是: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36
四、设置 “内容发布参数”
如下图
然后我们把发布POST数据里的值替换成标签。双击选中表单值,然后鼠标悬停在标签按钮上,对应选择要替换成的标签名即可,
可选系统标签,常用标签,时间标签。如下图替换的效果:
标题,来源,内容,时间 很方便确认识别。
在这里给大家讲解下“[分类ID]” 系统标签。
此标签是用于接下来我们的获取栏目列表设置做铺垫的。
那么如何确定 哪个表单名 就是 [分类ID]呢?
可以按如下图的方法,就很简单的知道,typeid 就是我们要找的 [分类ID],给对应替换即可。
五、确定“获取栏目列表” 设置
首先要确定我们的选择栏目列表是在哪个页面?一般有两种情况:
A.最常见的一种,栏目选择就是在发布内容页面里,类似我们演示的DEDE文章发布。B.特殊的情况,在其它页面下,不在发布内容页面。
在这里我们讲解A种情况,把“内容发布参数” 下的来源页面后缀的设置,拿过来直接使用即可。放入到“获取栏目列表”
下的发表地址后缀,和来源页面后缀中。然后再查看发布页面的源代码,找到刷新列表部分的源码,
确定栏目列表的开始和结束代码,以及格式。
ID 用[分类ID]替换
栏目名称用 [分类名称]替换
不规则出现的代码 用 (*)通配符匹配
设置如图:
可以发布,说明我们的 “内容发布参数” 设置没问题。
现在我们保存发布模块,大概测试下发布效果,可以刷新列表,说明“获取栏目列表”的设置没有问题。
六、完善模块
成功,失败标识码:
可以看到在网站发布正常的内容,和发布失败的内容(比如不填写标题,不选择栏目)看看分别的提示,
然后写入模块设置,多个提示一行一个。
高级功能:
可以看到我们此模块有个 LITPIC 表单名字段,这是我们在“内容发布参数” 的黏贴POST数据时,自动提取的设置。
在这里,我们可以自定义修改标签名,如设置为缩略图。
文件上传设置里的标签,文件上传不需要设置FTP,只要下载到本地就可以实现自动上传操作。
网站自动登录:
之前我们做的发布是在登录方式为内置浏览器的原理基础上获取cookie和User-agent 来做发布的。
我们也可以用数据包登录的方式来设置。其设置原理和“内容发布参数”是一样的,
用fiddler工具抓取登录后台那一瞬间的POST数据包。
POST http://127.0.0.1:801/dede/dede/login.php HTTP/1.1
Host: 127.0.0.1:801
Connection: keep-alive
Content-Length: 112
Cache-Control: max-age=0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
Origin: http://127.0.0.1:801
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36
(KHTML, like Gecko) Chrome/43.0.2357.124 Safari/537.36
Content-Type: application/x-www-form-urlencoded
Referer: http://127.0.0.1:801/dede/dede/login.php?gotopage=%2Fdede%2Fdede%2Findex.php
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.8
Cookie: menuitems=1_1%2C2_1%2C3_1; PHPSESSID=f21a42f70199c81955f3219623343735;
ENV_GOBACK_URL=%2Fdede%2Fdede%2Fcontent_list.php%3Fchannelid%3D1
gotopage=%2Fdede%2Fdede%2Findex.php&dopost=login&adminstyle=newdedecms&userid=admin&pwd=admin&validate=lcmt&sm1=
设置如下:
测试效果:
到这里就基本ok了,这样模块用内置浏览器登录或数据包登录都可以支持,一个完整的发布模块就完成了,如有疑问可以访问网页抓取工具火车采集器V9的官方网站(www.locoy.com)了解或咨询官方客服。
网站抓取精灵火车采集器V9最全术语解释
作者:dong 发布于:2016-4-25 13:38 Monday 分类:官方公告
网站抓取精灵火车采集器是目前功能最全面的采集软件,使用者只需稍加学习即可快速上手,这里是火车采集器V9 的操作术语解释。
1.采集任务
采集任务是火车采集器中对于数据采集和数据发布任务的完整配置,包含采集规则和发布模块。
2.采集规则
即我们对如何采集和采集什么的问题给出一些设置让采集器按照设置的规则来执行,这个设置可以从火车采集器里面导出保存为.ljobx文件,
也可以再次导入火车采集器。
3.发布模块
在火车采集器中,发布模块是对“将已经采集到的数据发布到哪里”进行的设置。包括WEB在线发布模块和数据库发布模块,其设置分别可以导出保存为.wpm文件 和.dbm文件,并可以再次导入火车采集器,多次使用。
4.发布接口
发布接口是一个小型的页面程序,通常和WEB在线发布模块配合使用来满足用户的特定需求。即采集器将采集的数据发送到发布接口文件中,接口文件得到数据,
并按照用户特定需求灵活地处理数据。
5.标签
是指用来提取某项内容信息的一个字段名字,由用户在编辑规则的时候指定,比如标题、手机号、邮件、作者,内容标签采集到的信息在发布模块中就可以通过
该标签名对应获取到,格式为[标签:标签名]如[标签:标题]。标签在火车采集器里面有分为两种:分别为列表页标签和内容页标签,顾名思义列表页标签就是在获取列表页时(即采网址时)就获取到内容信息,内容页标签是在获取内容页或多页内容时(采内容)才获取内容信息。
注:通常还有一种说法为 html标签,这里的标签是指一些html代码里面的属性标识符,如:<a href里面的a标签,里面的font标签为html标签,该术语在内容处理的html标签排除项出现。
6.(*)
在使用火车采集器时经常会遇到这个符号,它是变量的通用符号,如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个 符号代替。
7.[参数]
用来匹配某项准备提取信息的标记标签,如想要在代码中提取组合出某种格式。以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新 的地址格式为例。"mClk(this,'[参数]','[参数]', '[参数]','1'); ",按照次序,108484参数就是参数1,依次类推。实际需要的地址为以下的地址格式: bbs/read.php?id=[参数1]& sort=[参数3]&action=[参数2],上面代码中的3个参数和下面地址中的id,soft和action参数要对应相应的值,次序不要颠倒。 这样就组合成了新的地址格式。
8.起始网址
用来获取下级链接地址的入口网址,可以为一条或多条,可以通过添加起始网址向导添加同格式多条网址或导入文本网址。如果没有定义多级网址的获取方法, 这些地址即作为内容页网址进行内容采集。
9.多级网址
依次根据列表里面的多级网址顺序采集分析地址,通过依次采集分析到最后一级得到内容页地址。多级网址的获取可以使用页面自动分析和手动获取的方法采集 下级网址,在采集的过程中,可以同时采集列表分页及提取列表页附加参数。
10.Cookie
是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。在浏览器中使用时通常还会以文本形式记录到您的IE缓存目录中, 以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。
11.User-Agent
浏览器标识,是用来向服务器通知您使用的客户端类型,在某些需要登录的网页可能需要同时验证Cookie和User-Agent,所以需要您将其设置为与本机浏览器 同样的格式。
12.分页
列表或内容页面较长,分成多个页面显示,采集时需要将所有子页的内容组合起来,这样的子页面就是分页(列表分页或内容分页)。
13.多页
有些情况下,需要采集一个页面对应的网址,图片等内容时,需要另外打开一个新的页面才能采集到这些信息,这些另外打开的页面则称为多页。
14.网页编码
是在网页中指定其特定字符编码格式的库,例如一般在网页中都要有如下一句:<meta http-equiv="Content-Type"content="text/html;charset=gb2312">,
这样的字句指示此网页的字符集编码是GB2312。火车采集器对一般的网页可以做到自动识别,也罗列出了大部分的网页编码格式,可以直接在采集器中手动选择指定
相应的编码格式。
15.代理
是指网络中的代理服务器,可以代理网络用户去取得所需要的网络信息。代理的功能有可以突破自身ip的访问限制访问国外站点,访问一些单位或团体内部资源, 突破电信的ip封锁和隐藏真实的ip等。
16.插件
在火车采集器,插件是指可以对采集到的数据进行特定处理的一个外部程序,编写好插件后,采集器可以把数据传递给插件,然后对数据进行处理, 再把数据传给采集器。(可自行开发,也可联系客服定制。)
17.Cron表达式
在火车采集器计划任务管理器的设置中,可以设置完整的cron表达式来表示对任务的计划执行。它是一个由6或7个子表达式组成的字符串。每一个表达 式代表一个域,每个域描述了一个单独的日程细节且每个域之间使用空格分隔,它由两种格式组成。
Seconds Minutes Hours DayofMonth Month DayofWeek Year
Seconds Minutes Hours DayofMonth Month DayofWeek
一个Cron表达式至少有6或7个有空格分隔的时间元素,每个时间元素都使用数字,但还可以出现如下特殊字符,他们的含义分别表示:
1.Seconds 秒 (允许值为0-59,允许的特殊符号,- * /)
2.Minutes 分钟 (允许值为0-59,允许的特殊符号,- * /)
3.Hours 小时 (允许值为0-23,允许的特殊符号,- * /)
4.Day-of-Month 月中的天 (允许值为1-31,允许的特殊符号,- * / ? L W C)
5.Month 月 (允许值为1-12或者JAN-DEC,允许的特殊符号,- * /)
6.Day-of-Week 周中的天 (允许值为1-7或者SUN-SAT,允许的特殊符号,- * / ? L C #)
7.Year (optional field) 年(可选的域,允许值为留空或者1970-2099,允许的特殊符号,- * /)
特殊字符含义:
(1) * 表示该域的任意值。如在Minutes域使用,即表示每分钟都会触发事件。
(2) ? 只能用在DayofMonth和DayofWeek两个域。实际上不会匹配域的任意值,因为DayofMonth和DayofWeek会相互影响。如想在 每月的20日触发调度,
不管20日是周几,则只能使用如下写法:13 13 15 20 * ?,其中最后一位只能用?,而不能用,如果使用*表示每月的20号15时13分13秒不管是周几都会触发,实际上不是的。
(3) – 表示范围,如在Minutes域中使用5-20,表示5到20分钟每分钟触发一次
(4) / 表示起始时间开始触发,然后每隔固定时间触发一次。如在Minutes域中使用5/20,表示从分钟数5开始每隔20分钟触发一次,结果25,45,05等分别触发一次。
(5) , 表示列出枚举值。如在Minutes域中使用5,20,则表示5分钟和20分钟每分钟触发一次。
(6) L 表示最后,只能出现在DayofMonth和DayofWeek域。
(7) W 表示有效工作日(周一到周五),只能出现在DayofMonth域中,系统将在离指定日期最近的有效工作日触发事件。另外,W的最近寻找不会跨过月份。
(8) # 用于确定每个月第几个星期几,只能出现在DayofMonth域中。如4#2表示某月的第二个星期四。
完整的corn表达式如0 15 08 ? * MON-FRI 表示每周一到周五的早上8点15分开始定时更新数据。
18.任务网址库
采集器在文件夹DataLocoySpiderPageUrl下,该站点下的每一个任务都会生成一个独立或公用的网址库用来对比网址重复之用。
19.HTTP请求
浏览器打开网页时实际就是发送一个又一个Http请求,火车采集器也一样,从指定的地址获取内容的过程就是发送Http请求,然后对根据请求得到的内容进行处理。 当浏览器向web服务器发送请求时,它向服务器传递了一个数据块,也就是请求信息。Http请求信息由3部分组成:请求方法URI协议/版本,请求头(Request Header) 和请求正文。
如下图:
而客户就可以从请求的信息中得到有用的数据。
初学者掌握以上术语后,搭配教程进行学习,很快就可以灵活使用火车采集器V9来实现网站的高效抓取。
抓取网页数据工具如何单独进行发布操作
作者:dong 发布于:2016-4-20 13:14 Wednesday 分类:官方公告
抓取网页数据工具火车采集器V9是市场中功能最全面的采集软件,具备数据采集、处理和发布功能,能够轻松应对网站更新维护、内容群发等需求。采集完发布大家一定都会操作了,但是如果你已经有了一批数据,不需要再进行采集,只需要发布该怎么通过火车采集器来实现呢?
其实这个需求也是很容易实现的,大家可以按照以下步骤来进行:
1、首先是新建一个任务,这步操作会产生一个任务数据库,然后将自己已有的数据导入到这个数据库中。当然,这个任务你需要设置发布步骤,否则无法实现发布。
2、在任务数据库中,将已采设置为true或1,mysql,sqlserver是1。
3、开始运行任务,在火车采集器最新版V9里面不需要勾选采集,在其他版本中不需要勾选采网址和采内容,只勾选发内容即可。
有的用户反映说,抓取网页数据工具火车采集器会重复发布文章,也就是说发布到网站后,下一次运行时又接着发布,导致网站上内容重复。对于这个问题,我们需要从以下两点着手考虑:
1、采集器是否采集了多篇一样的文章内容? 可以通过,右击规则——本地编辑数据来查看采集的数据。
2、采集器发布的时候,是否提示了发布成功? 如果您发布的时候提示的是 “发布未知” 或者“发布失败” ,而实际上您的内容确实是已经成功发布到您的网站了。那么这个状态下,采集器不会把内容标记为已发状态,下次发布的时候,还是会作为新内容去发布的。所以才会出现部分用户看到的重复发布的问题。
针对上面的问题,解决方案如下:
1、如果是发布的内容有的显示成功,有的显示未知,那么考虑调整下发布时间间隔,间隔设置长一些,然后再运行发布试试,关于如何设置线程可参考官网教程。
2、如果上面方法仍然解决不了问题,那么可以考虑强制解决办法,在文件保存及部分高级设置的右下角发布结束后,勾选标记所有记录为已发,这样每次发布无论发布结果如何提示,都会把这条记录标识为已经发布。
抓取网页数据工具火车采集器V9对于采集、处理、发布均能进行高效的操作,学会灵活运用能够为我们的日常工作和学习带来极大的便利。
网页抓取工具灵活抓取网页指定内容
作者:dong 发布于:2016-4-7 14:20 Thursday 分类:官方公告
抓取网页上的指定内容在互联网领域已经是非常普遍的需求了,不过对于刚刚接触这个领域的朋友尤其是技术小白们来说,确实很难快速上手,所以我们需要用到一个方便快捷的抓取工具帮助我们快速实现需求,网页抓取工具火车采集器V9正是以稳定、便捷以及易于学习的特性,吸引了许多技术小白的青睐。
网页抓取工具火车采集器V9对不同使用需求的用户,分为不同的版本,对于初次接触网页抓取的朋友们来说,可以下载个免费版来练习下,对于需求不那么高的用户来说免费版已经可以基本满足使用需求了,那在火车采集器V9这个网页抓取工具的帮助下我们如何实现网页指定内容的灵活抓取呢?
一、抓取文本数据
网页中的文本数据在火车采集器中可以通过提取来实现采集,提取方式也有很多中,比如正文提取、前后截取、正则提取、json提取等。其中操作最简单的就是正文提取和前后截取,初学者随着学习使用的深入可以试着掌握其他的提取方式,功能更为强大、便捷。
二、抓取网址数据
网址也可以在网页抓取工具的采集下被快速获取保存,提取方式同样是多样可选的,比较规整的网址可以通过火车采集器V9自动识别获取的功能采集,也可以手动设置规则采集。
三、抓取文件或图片数据
既然是灵活地指定抓取,那么除了文字和网址,网页中的压缩文件或是图片当然也要被采集下来,火车采集器V9带有文件下载功能,可以勾选后自动探测并下载文件、下载图片,可以设置下载的路径和文件名样式,这样下载后就可以保存在用户的目标里了。
在我们采集指定内容的过程中,也可能会采下一些不需要的数据,这可以通过数据处理进行解决,比如内容过滤、标签过滤、排重等。网页数据需求者们有了火车采集器就可以利用网页抓取工具的强大功能和特性,轻松实现网页指定内容的灵活抓取了,无需人工繁琐的操作,畅享网页抓取工具带来的低成本高效率。
联系我们
联系电话
-
0551-62864156
QQ邮件订阅
最新评论
- industrialegy
<a href="http://www.... - inve
这个采集到的视频地址 应该不是真实地址... - 云南桥架厂
我能说这个妹不错么 - 密密麻麻
win10 64位,处理后会留下原压缩包... - 平行进口车
以前经常用火车,来支持一下。 - 天津网站建设
文章采集器,厉害了 - 骗子医院
这个可以试试! - qq昵称
这么好的帖子,必须顶起来!! - 哈尔滨舒家网
试用一下,看是否能用。希望能用。火车头业... - 誉非
这个下载下来是安装程序,不是视频教程啊。