时间:2020-10-16 20:44
很多站长朋友都喜欢采集一些比较好的文章,比如美文网就是其中一个,里面每天都在大量的质量较好的文章发布,因此文章资源可以说是源源不断。但是对于采集工具,互联网上各式各样,编写规则采集的占多数,这个对于大部份站长来说,可能这是一道很大的门槛,很难跨过去,因为大部份站长不会编写采集规则,这样就导致许多的好的资源眼睁睁着放弃,或者有部份站长手工去复制粘贴或付费让人编写采集规则,效率和资金投入可谓是伤力又伤财呀。现在我这里就教大家如果利用芭奇站群软件来指定域名规则去采集网站文章,这个是一个不用写规则,还支持自动采集,自动跟踪等功能,不管是新站长还是老站长,都是很容易入门,方便省力。现在图片教程如下:
你先按入门教程加好一个网站在软件,入门教程地址:http://www.bakii.cn/jiaochengdaquan/2018/1108/11150.html
一、打开芭奇软件,在你的网站节点右健菜单,打开【指定域名采集】功能。(网站节点和栏目自己按上面入门教程增加一下。)
二、进入后,点击左上角一个栏目,作为保存点,然后在右边填写采集的目标网址。
在这里,我先教一下大家一些"如何填写字符"的基本知识。看下图
1、是你想采哪个站的列表网址,就是叫目标采集地址,这个一般是列表,因为列表才是这个栏目所有内容链接的地方。
2、翻页链接地址,就是第1页,第2页等等的链接,注意上方红色和蓝色的字符,在芭奇站群软件上,就是需要填写这些蓝色字符。对比两个网址,相同不会变化的,就是蓝色的字符。红色字符的2和3,这个是栏目的翻页数的ID,在这个分类地址,就会变化,就不填,一般以|为替换,|字符,在这里主分隔符,就是代表分开两个字符,一般?p=后面没有东西,可以不用写|。遵循一句话:取相同且唯一的字符。在这个列表页地址里面,?p=就是代表翻页,没有其他链接跟这个格式一样了。所以,软件就会识别了这个是翻页地址。每行前面,都最好带有本站网址,这样就不会采到别的域名的同字符的文章了。
3、内容链接地址,就是采集的文章地址,也是和上面原理一样,注意红色和蓝色的字符,蓝色字符就是需要填上软件的,红色字符会变化的,就以|代替就好。
三、上面的知识了解明白了,那就把A5的网址和字符填在软件上,结果如下:
1、红色的框框,就是需要采集填写的字符。按下面这样填写好了,就可以采集了。
2、这里也顺便说说上图蓝色框框的作用,这个是为了以后挂机自动采集时,指定列表地址挂跟踪配置采集最新网站数据要用到的网址,一般只填第1页或前几页就行了,因为目标网站更新的文章,都是在这前几页。软件挂机就可以实现自动追踪采集了。
四、现在可以采集测试一下是否正常。在上图左下角,点【采集测试】按扭,结果如下图
上图,这个是采集测试翻页地址,没出现其他非翻页的地址链接,说明采集正常。如果其他网址,就可以再设置排除。
上图,这个是测试采集当前第一页的所有内容网址,没其他非内容网址链接,说明采集正常。如果其他网址,就可以再设置排除。
上图,这个是随意测试的结果,基本够用的。
如果还要细节调整,比如过滤替换,出现其他广告文字,可以设置下面细节的功能。
那么,同一个网站,一般规则是一样的,只是地址不一样。以下面的这些栏目,找到他们有翻页地址的列表地址,就可以继续加新规则采集了。
现在我点采集看看效果。看中间的爬行记录,软件是像蜘蛛一样一页一页采集的。
最后,可以在网站节点,进入【数据内容管理】或下面的【查看文章】,查看你采集回来的文章。然后发布到你的网站上去或导入TXT文本做其他用途。
好了,指定域名采集的教程就是这样,有不懂的可以咨询我们客服QQ:712654546。
下面,再说一下其他方面常用的功能:
1、导出导入规则
2、前台模式采集,遇到有一些网站防采集,正常测试不了内容的,可以勾上前台
3、翻页列表地址详细配置,点下面按扭
4、规则每次采集的数量定义
5、一个规则采集的文章,平均分配到其他栏目保存入库,勾下下图
6、标题过滤替换和内容过滤替换功能
7、有时采集不了时,可以试试换一下蜘蛛模式