设置密码

验证码错误,请重新填写

免费建站旅程马上开始

开始建站
建站中

已有帐号?直接登录

首页>森动学院>营销教程 > 虫虫营销助手文章智能采集与正则采集模式
虫虫营销助手文章智能采集与正则采集模式
发布时间: 2013-04-18

产品购买地址:http://www.sendong.com/t2662.html

软件现有对文章采集分为智能范采集和正则精确采集2种模式。智能范采集虽然操作简单,但往往会采集到一些站内垃圾文章;正则采集模式虽然精准,但对正则表达式的要求较高。新版本综合考虑了操作和精确度需求,将原有的爬虫智能采集由范采集升级为栏目精确采集,用户只需要设置栏目编码页和文章前缀,即可很容易的采集到栏目下的文章。

以新浪史话栏目为例说明如何智能采集栏目文章。(也可以参考视频里演示的是英文BBC关键词的采集示例)

首先,进入智能采集入口,新建采集规则,设置栏目首页和文章前缀。

 智能采集入口

设置栏目首页地址:该栏目的第1页是

http://roll.blog.sina.com.cn/list/cul/index_1.shtml

第2页是

http://roll.blog.sina.com.cn/list/cul/index_2.shtml

第3页是

http://roll.blog.sina.com.cn/list/cul/index_3./shtml

可以看到页面变化的只是1,2,3,将栏目的变化页面设置为

[page:起始页-结束页:页码间隔],页码间隔为可选,如果是1就不用填了.这里可以设置成http://roll.blog.sina.com.cn/list/cul/index_[page:1-5].shtml

设置文章前缀:看看该栏目下的3文章:

http://blog.sina.com.cn/s/blog_4b99db850102e1ub.html

http://blog.sina.com.cn/s/blog_4850e3f30101m82x.html

http://blog.sina.com.cn/s/blog_afdcd843010171dj.html

可以发现都是以http://blog.sina.com.cn/s/

开头的,所以文章前缀可以设置成http://blog.sina.com.cn/s/

只需2步,这样一个栏目采集规则就设置好了。

该模式也可以支持整站采集,只需要输入主页就可以采集了,不过采集的文章不够精准,可能会有一些不需要的文章。

同时,该采集是支持断点采集的,采集不完的下次是可以继续接着上次的地方继续采集的,如果需要重新采集,点击“重置”按钮,可以初始化相应的采集规则。

相比正则采集模式,该模式在操作上简单许多,而且精确度也不会差很多。