您现在的位置是:芭奇站群管理系统 > 热门关注 > -> 如何快速采集Admin5站长网的原创文章

如何快速采集Admin5站长网的原创文章

时间:2012-12-20 00:01

   很多站长朋友都喜欢采集一些比较好的文章,比如Admin5站长网就是其中一个,A5作为国内大型站长网之一,里面每天都在大量的质量较好的原创文章发布,因此文章资源可以说是源源不断。但是对于采集工具,互联网上各式各样,编写规则采集的占多数,这个对于大部份站长来说,可能这是一道很大的门槛,很难跨过去,因为大部份站长不会编写采集规则,这样就导致许多的好的资源眼睁睁着放弃,或者有部份站长手工去复制粘贴或付费让人编写采集规则,效率和资金投入可谓是伤力又伤财呀。现在我这里就教大家如果利用芭奇站群软件来指定目标网站采集,这个是一个不用写规则,还支持自动采集,自动跟踪等功能,不管是新站长还是老站长,都是很容易入门,方便省力。现在图片教程如下:

  一、打开芭奇软件,在网站节点右健菜单,打开【指定域名采集文章】功能。(网站节点和栏目自己增加一下,首次需要先打开一次【数据管理】窗口,生成一下栏目数据库,以用于保存采集的文章。)

  二、进入后,点击左上角一个栏目,作为保存点,然后在右边填写采集的目标网址。

在这里,我先教一下大家一些"如何填写字符"的基本知识。看下图

1、是你想采哪个站的列表网址,就是叫目标采集地址,这个一般是列表,因为列表才是这个栏目所有内容链接的地方。

2、翻页链接地址,就是第1页,第2页等等的链接,注意上方红色和蓝色的字符,在芭奇站群软件上,就是需要填写这些红色字符。对比两个网址,相同不会变化的,就是红色的字符。蓝色字符的1和2,这个是栏目的页数ID,在这个分类地址,就会变化,就不填,一般以|为替换,|字符,在这里主分隔符,就是代表分开两个字符,前面是list_后面是.shtml。遵循一句话:取相同且唯一的字符。在这个1的列表页源码里面,browse/117/list_就是代表翻页,没有其他链接跟这个格式一样了。所以,软件就会识别了这个是翻页地址。

3、内容链接地址,就是采集的文章地址,也是和上面原理一样,注意红色和蓝色的字符,红色字符就是需要填上软件的,蓝色字符会变化的,就以|代替就好。

  三、上面的知识了解明白了,那就把A5的网址和字符填在软件上,结果如下:

  1、红色的框框,就是需要采集填写的字符。按下面这样填写好了,就可以采集了。

  http://www.admin5.com/browse/177/
  http://www.admin5.com/browse/177/list_|.shtml
  http://www.admin5.com/article/|.shtml

  2、这里也顺便说说上图蓝色框框的作用,这个是为了以后自动采集,自动同步追踪采集最新网站数据要用到的网址,一般只填第1页到第4页就行了,因为目标网站更新的文章,都是在这前几页。软件挂机就可以实现自动追踪采集了。

  四、现在可以采集测试一下是否正常。在上图左下角,点【采集测试】按扭,结果如下图

上图,这个是采集测试翻页地址,没出现其他非翻页的地址链接,说明采集正常。如果其他网址,就可以再设置排除。

上图,这个是测试采集当前第一页的所有内容网址,没其他非内容网址链接,说明采集正常。如果其他网址,就可以再设置排除。

上图,这个是随意测试一篇文章地址,如能出现标题和内容,说明采集正常。如果出现其他文字,可以设置排除或指定范围采集。

上图,这个是设置排除和过滤的地方

  五、上面看着文字图片很多,其实采集A5的列表文章,就只需要设置这三行字符就行了,根本不需要太多复制的采集规则。

  http://www.admin5.com/browse/177/
  http://www.admin5.com/browse/177/list_|.shtml
  http://www.admin5.com/article/|.shtml

其他的【访谈】、【运营】、【教程】等等,其他也就是177的栏目ID换一个,下面两行的字符,也是一样的。这样就可以将A5的整站栏目文章都可以采集回来了。如果想采集固定的条数,可以在【补充设置】【单页文章】设置最多采多少篇。如上图。

现在我点采集看看效果。看中间的爬行记录,软件是像蜘蛛一样一页一页采集的。

最后,可以在网站节点,右健进入【数据管理】,查看你采集回来的文章。然后发布到你的网站上去或导入TXT文本做其他用途。

好了,采集的教程就是这样,有不懂的可以咨询我们客服QQ:509229860。也可以加入QQ群交流:45858269