抓取网页数据工具如何单独进行发布操作

作者:dong 发布于:2016-4-20 13:14 Wednesday 分类:官方公告

抓取网页数据工具火车采集器V9是市场中功能最全面的采集软件,具备数据采集、处理和发布功能,能够轻松应对网站更新维护、内容群发等需求。采集完发布大家一定都会操作了,但是如果你已经有了一批数据,不需要再进行采集,只需要发布该怎么通过火车采集器来实现呢?


  其实这个需求也是很容易实现的,大家可以按照以下步骤来进行:


1、首先是新建一个任务,这步操作会产生一个任务数据库,然后将自己已有的数据导入到这个数据库中。当然,这个任务你需要设置发布步骤,否则无法实现发布。


2、在任务数据库中,将已采设置为true1mysqlsqlserver1


3、开始运行任务,在火车采集器最新版V9里面不需要勾选采集,在其他版本中不需要勾选采网址和采内容,只勾选发内容即可。


  有的用户反映说,抓取网页数据工具火车采集器会重复发布文章,也就是说发布到网站后,下一次运行时又接着发布,导致网站上内容重复。对于这个问题,我们需要从以下两点着手考虑:


1、采集器是否采集了多篇一样的文章内容可以通过,右击规则——本地编辑数据来查看采集的数据。


2、采集器发布的时候,是否提示了发布成功?  如果您发布的时候提示的是 “发布未知” 或者发布失败”  ,而实际上您的内容确实是已经成功发布到您的网站了。那么这个状态下,采集器不会把内容标记为已发状态,下次发布的时候,还是会作为新内容去发布的。所以才会出现部分用户看到的重复发布的问题。


  针对上面的问题,解决方案如下:


1、如果是发布的内容有的显示成功,有的显示未知,那么考虑调整下发布时间间隔,间隔设置长一些,然后再运行发布试试,关于如何设置线程可参考官网教程。


2、如果上面方法仍然解决不了问题,那么可以考虑强制解决办法,在文件保存及部分高级设置的右下角发布结束后,勾选标记所有记录为已发,这样每次发布无论发布结果如何提示,都会把这条记录标识为已经发布。


  抓取网页数据工具火车采集器V9对于采集、处理、发布均能进行高效的操作,学会灵活运用能够为我们的日常工作和学习带来极大的便利。

 


标签: 火车采集器V9 抓取网页数据工具

评论(0) 引用(0) 浏览(3208)

抓取网页数据工具新增功能json提取示例

作者:dong 发布于:2016-3-31 15:24 Thursday 分类:官方公告

  使用过最新版火车采集器V9的朋友应该都发现V9新增了json提取的功能,但是许多使用抓取网页数据工具的朋友在操作此功能的时候都会觉得有点弄不明白,这里特意为大家整理了json提取的教程示例,感兴趣的朋友可以仔细研究一下。


  首先大家需要明白JSON 是有两种结构,简单的说json就是javascript中的对象和数组,所以这两种结构就是对象和数组两种,通过这两种结构可以表示各种复杂的结构。下面具体说明一下。


1、对象:对象在js中表示为“{}”括起来的内容,数据结构为 {keyvalue,keyvalue,...}的键值对的结构,在面向对象的语言中,key为对象的属性,value为属性值,所以很容易理解,取值方法为对象key 获取属性值value,这个属性值的类型可以是数字、字符串、数组、对象几种。


2、数组:数组在js中是中括号“[]”括起来的内容,数据结构为["java","javascript","vb",...],取值方式和所有语言中一样,使用索引获取,字段值的类型可以是 数字、字符串、数组、对象几种。


  经过对象、数组2种结构就可以组合成复杂的数据结构了。如下:

{ "name": "中国", "province": [{ "name": "黑龙江", "cities": { "city": ["哈尔滨", "大庆"] } }, { "name": "广东", "cities": { "city": ["广州", "深圳", "珠海"] } }, { "name": "台湾", "cities": { "city": ["台北", "高雄"] } }, { "name": "新疆", "cities": { "city": ["乌鲁木齐"] } }] }

    我们可以借助工具http://tool.oschina.net/codeformat/json 测试是否是JSON,格式化后如图:

001.png

  下面举例说明JSON提取的2种方式:

1JSON数据源:URL网址

  如我们需要对JSON网址http://car.interface.autohome.com.cn/dealer/LoadDealerPrice.ashx?_callback=LoadDealerPrice&type=1&seriesid=3170&city=340100 做采集

  分析得出:此URL的整个源代码是个完整的JSON 所以JSON数据源选择 URL网址然后勾选循环匹配,就可以采集到整个JSON里的数据。

如图:

002.png

003.png

2JSON数据源:JSON文本: 另外一种情况,网址里的源码不全是JSON,而只是一部分代码是JSON形式,此时我们需要提取出这段JSON文本,然后再格式化。例如网址 http://car.autohome.com.cn/config/series/3170.html

004.png

  所以我们需要通过多页的形式,来获取本页地址里这部分JSON代码,然后再设置JSON表达式。

005.png

如图:

006.png

  按照上面的步骤,两种JSON提取就完成了,广大用户朋友们是不是觉得简单又好用,所以抓取网页数据工具首选火车采集器V9,功能全面且易用,新手朋友们多多联系,一定能快速上手,如还有疑问或其他问题请随时联系官方客服为您解答哦!


标签: 火车采集器V9 抓取网页数据工具

评论(0) 引用(0) 浏览(14246)

Powered by emlog