时间:2020-10-16 20:43
软件问题描述:
最近发现有些用户采集,会出现下面图片的内容,经排查,是因为某些站用了一些黑帽手法,故意将标题和内容转在乱码之类的文章,用芭奇的关健字采集功能会采到这些站的原文内容:
解决方法具体如下,用芭奇站群的排除库,排除以下网址(目前收集的可以不采的地址)
sh.qihoo.com
sina.com.cn
360kuai.com
kuaibao.qq.com
top.sogou.com
fankui.help.sogou.com
scholar.sogou.com
e.weibo.com/sogou
fankui.help.sogou.com
help.sogou.com
dangjian.sogou.com
snapshot.sogoucdn.com
www.baidu.com/search
www.baidu.com/more
wenku.baidu.com/search
bzclk.baidu.com
j.br.baidu.com
cache.baiducontent.com
cache.baidu.com
help.baidu.com
www.sohu.com
cqnews.net
southcn.com
cngold.org
kooxue.cn
mbachina.com
kesolar.com
注意:底下有教程2,设置排除库教程
如果采集新浪图库文章时,会出现下面这样文章,也可以考虑加入排除库不采新浪图库的文章
还有一些内容,可能是采到搜索的一些文章,如搜狗类的,这种可以加入敏感词库来实现排除。
1、加敏感词库的方法:
==============以下是要加入敏感词===============
百度百科
百度贴吧
全球最大的中文社区
百度知道
全球最大中文互动问答平台
百度贴吧
百度文库
搜狐视频
百度知道搜索
百度汉语
百度学术
百度图片
发现多彩世界
百度产品大全
百度一下
你就知道
搜狗产品大全
党建搜索
搜狗学术
百度安全验证
百科词条人人可编辑
词条创建和修改均免费
绝不存在官方及代理商付费代编
请勿上当受骗
百度一下,你就知道
百度信誉
404页
搜狐视频
QQ音乐
搜狗搜索快照
百度图片搜索
百度履历
搜狗-免责声明
搜狗搜索帮助中心
搜狗热搜榜
- 搜狗搜索
搜狗搜索
隐私政策
-搜狗公司
2、加排除库的方法:
进入归属窗口,点开排除库
保存之后,就有一个排除库。然后在左边加载网站,勾上这个排除库关联所有站
另外提示:
想查看一些不想采的文章的地址的方法是,右健网站,在数据管理,点一个栏目,点右上角的已发布或未发布,,找到你认为不想采的文章标题,点“编辑”,左边有一个“来源地址”,里面就有这个文章的来源,复制它有主域名,加在上面的排除库。因为会不停有不同的站有这些文章,所以需要用户自己收集