火车浏览器实现关键词批量搜索

作者：dong 发布于：2017-7-29 17:34 Saturday 分类：官方公告

何为模拟浏览器操作呢？

即我们平时手动使用浏览器时会进行哪些动作，火车浏览器软件就可以进行模拟自动实现这些动作，继而进一步实现对页面中元素的操作。

比如我们会使用浏览器打开网页，刷新网页，调整页面大小等，这些在火车浏览器软件中是如何实现的呢？我们打开软件的脚本编辑器来学习一下。

软件的脚本编辑器中有专门针对浏览器的流程选择，具体说明如下：

标签页操作

我们可以创建标签页和切换标签页，该操作能够实现在一个脚本中打开多个页面，和人工手动操作无异。

打开网页

想要抓取数据就先要打开网页，该操作用来模拟网页打开的步骤。首先需要填写要打开的网址：

①打开网址：填写需要打开的网址。（可以调用文本型变量：将需要打开的网址保存在文本型变量中即可调用。注意:这里只能调用文本型变量，如果是list变量，则需要循环遍历list变量后保存在文本型变量中才可调用。）

②来源地址：模拟http请求的referer网址，即告诉服务器我们是从哪个页面链接过来的，此处一般可以不用填写。

③Cookie：可以用fiddler抓取页面的cookie（登录信息），保存在文本型变量中，直接调用该变量。

④智能判断网页是否加载完成：勾选则可启用该功能。

⑤超时时间：设定一个时间，若是在此超时时间内，网址仍没有加载完成，就强制结束打开网页这一步，继续运行下面的步骤。

⑥Windows认证：访问页面时有时会需要身份认证，需填入用户名密码，比如在登录路由器时，就需要使用这个功能。

Cookie操作

即在火车浏览器中进行cookie的导出、导入或者是清除cookie。

①导出cookie到文本：将火车浏览器中cookie导出并保存到文本中。

②导入文本cookie：将文本中的cookie导入到火车浏览器中。（注意：此时文本中的cookie必须是火车浏览器导出的cookie格式。）

③导入字符cookie：导入火车浏览器中接收的cookie格式。

④清除cookie：即清除火车浏览器中的cookie。

使用场景

①网站需频繁登录：遇到此类网站，可以将登录后的cookie导出。然后下次运行时，可以直接导入登录后的cookie，避免再次重复登录步骤。

②直接退出登录账号：想要直接退出，可以设置清除cookie，则浏览器中的登录信息都会清除。

注意：如果是使用fiddler抓包的cookie，则不能在本步骤使用。可以在打开网页中调用fiddler抓包的cookie。

设置浏览器选项

对浏览器的UserAgent、代理等一些基本参数进行设置。

①UserAgent：模拟浏览器信息。可以选择常用useragent中的示例，也可以自己找真实的UA填写。这里只可以调用文本型变量。如果存储大量的UA在list变量中，需要循环遍历list保存至文本型变量，然后这里再调用该文本型变量。

②代理：这里支持http以及Sock4、Sock5类型的代理。

格式形如：http://user:pass@ip:port （socks4://user:pass@ip:port）如果没有用户名密码，那么格式形如http://:@ip:port，例如http://:@127.0.0.1:8888。

如果IP代理地址存放在文本中，可以使用文本读取，读取IP地址保存至list变量，然后循环遍历list变量保存至文本型变量，再调用该文本型变量用于设置浏览器代理，这里需要注意代理的格式需要处理成火车浏览器默认的格式。
③弹出窗口：勾选则允许自动弹出新的标签页。

滚动条设置

滚动当前页面，可设置滚动到顶部、滚动到底部、滚动到指定元素位置的等。针对一些页面信息较多，关键信息需要进行下拉才会出现的情况。

①滚动到指定的元素位置：需要找到指定位置的xpath。

②滚动到指定的坐标：此功能需要结合“设置浏览器大小”功能使用，先确定界面大小，这样在运行过程中，指定元素的坐标不会发生变化。在设置浏览器大小后，将鼠标放在滚动目标元素处，火车浏览器左下角会出现该元素的X、Y坐标，将其写入步骤即可（注意：一定要先设置浏览器大小，再取元素坐标。）

刷新页面

即刷新当前页面。

后退一步

顾名思义，即后退到上一个操作界面。

网页截图

在当前页面截图并将图片保存在本地。截取方式可以选择截取整个页面、按照区域坐标截取，按照xpath截三种。

①截取整个页面：指定图片保存路径、文件名保存格式，保存文件路径（是将图片保存在本地的路径再保存至变量，此处可以为空）。

注意：保存格式可以选择原文件名以及变量、日期等命名方式。格式结尾要指明图片格式后缀，如jpg、png 等图片格式。如文件名保存格式中填写的名称呈现绿色，则需要在前面加上转义字符 ”\“，如下图。

②截取指定区域：可以借助坐标来截图某一元素。首先找到元素的任意区域xy坐标点，如下图，鼠标放在该区域中，则在火车浏览器左下角，会出现相应坐标，将坐标填在步骤里，则可截取该元素的图片。

注意：在使用此方式时，依旧需要结合“改变浏览器大小”步骤，设置浏览器界面大小，以免运行过程中界面大小变化，导致设置的坐标无效。

③截取指定xpath：截取指定xpath元素内的图片。首先要分析出需要截图区域的xpath ，然后将xpath填写在步骤中，即可截取该图片。

页面信息

对当前页面中的有用信息进行提取，比如当前页地址，当前页登录信息等。

浏览器窗口大小

此功能可以更改浏览器显示的窗口大小。在前面的滚动到指定坐标和截取指定区域功能中已经介绍过，结合此功能可以保证页面中的x、y坐标不变，能够正确点击到设定的坐标。

弹窗信息

操作中如出现alert弹窗，则无法通过xpath获得内容，所以可以通过此步骤获取弹窗信息。注意：只有当整个脚本在右键测试运行，或exe以及项目管理器中正式运行时，才能取得alert中的内容。单个步骤右键测试运行时，是无法获取其中内容的。

上面的这些操作通过火车浏览器都可以自动实现，当我们需要反复进行这些操作的时候，比如，批量打开网页进行群发等操作，就能直接用软件来执行，节省大量的人力和时间。

相关日志：

« 火车采集器12岁了十二周年庆 1000个优惠码 | 大数据是怎样帮互金平台留住你的？»

发表评论：

火车采集器官方博客

发布关于火车采集器的最新消息,最新资源,最新活动

火车浏览器实现关键词批量搜索

搜索

联系我们

联系电话

QQ邮件订阅

最新评论