时间:2010-05-16 15:29
虽然做网站建设和seo优化有段时间了,但对于iis日志的分析一直不曾研究,今天看到一篇关于iis日志和搜索引擎爬虫痕迹的文章,特地收藏,与大家共享。
这次由于建设一个新网站的原因,重新上服务器开通了iis日志,居然还遇见了一点小问题。搜索了很多技术文章才最终搞定。我想,应该还有很多初学者,甚至是seo入门的朋友,对iis日志都还不够熟悉吧?因此今天我便从iis日志的设置到如何对爬虫进行分析做一个简要的讲解,权当作是初级的seo培训。
一、iis日志的设置。
第一个步骤:打开iis服务器。选择所要设置的网站属性。弹出如下窗口:
选择“启用日志记录”,勾选,选择“w3c扩展日志文件格式”。
第二步骤:再次点击这里的“属性”按钮,常规选项里面,选择新日志计划为“每天”,当然也可以选择其他,选择好保存日志文件的目录。
很多seo设置到这里,点击确定之后,发现iis日志已经开始记录,但是无论如何都找不到搜索引擎爬虫的痕迹,类似于baiduspider+怎么都看不到,其实,我们还应该做第三个辅助步骤,因为默认的iis日志是不开启这个功能的。
第三个步骤:选择高级选项。勾选底下的用户代理(cs(user-agent))等选项,我一般都将最下面的三个选项勾选起来。这样,你才可以看到百度等爬虫的名称。
第四个步骤:如果你全部按照上面设置之后,发现你的iis日志还没开始记录,也就是本次困扰了我非常久的问题,那么最重要的一步就是检查相关的设置是否都完整。有的朋友说iis日志不记录是因为系统服务windowstime没启动,或者系统的权限不正确等,比如没让iis日志保存的那个文件夹有和iis一样的权限之类,其实没有这么复杂,把下图的“记录访问”选项勾选即可。这样你的iis日志就开始正常记录了。
二、如何分析网站iis日志中的搜索引擎爬虫轨迹
首先,加入你要搜索百度的爬虫,那么就直接在保存记录的文本文档上搜索“baiduspider”,我们节选以下一行来做详细的分析:
2009-04-0716:00:09w3svc471124.173.129.217get/info/71620_827.html-80-203.208.60.138mozilla/5.0+(compatible;+googlebot/2.1;++abcdgoogle.com/bot.html)2000022228
这段iis日志代码表示:在2009-04-0716:00:09这个时间,百度搜索引擎的蜘蛛(ip地址为203.208.60.138,后面的abcdgoogle.com/bot.html是关于googlebot+的相关问题)访问了服务器ip为124.173.129.217的网站abcdvegoo.net,并且抓取了页面/info/71620_827.html,该日志记录保存在w3svc471文件夹。
其中,两个地方值得说明:
一是代码中abcdgoogle.com/bot.html后面的200表示搜索引擎蜘蛛爬行后返回http的状态代码,代表成功爬行并抓取。
各个数字代码的具体意思参见如下:
2xx成功
200正常;请求已完成。
201正常;紧接post命令。
202正常;已接受用于处理,但处理尚未完成。
203正常;部分信息—返回的信息只是一部分。
204正常;无响应—已接收请求,但不存在要回送的信息。
3xx重定向
301已移动—请求的数据具有新的位置且更改是永久的。
302已找到—请求的数据临时具有不同uri。
303请参阅其它—可在另一uri下找到对请求的响应,且应使用get方法检索此响应。
304未修改—未按预期修改文档。
305使用代理—必须通过位置字段中提供的代理来访问请求的资源。
306未使用—不再使用;保留此代码以便将来使用。
4xx客户机中出现的错误
400错误请求—请求中有语法问题,或不能满足请求。
401未授权—未授权客户机访问数据。
402需要付款—表示计费系统已有效。
403禁止—即使有授权也不需要访问。
404找不到—服务器找不到给定的资源;文档不存在。
407代理认证请求—客户机首先必须使用代理认证自身。
410请求的网页不存在(永久);
415介质类型不受支持—服务器拒绝服务请求,因为不支持请求实体的格式。
5xx服务器中出现的错误
500内部错误—因为意外情况,服务器不能完成请求。
501未执行—服务器不支持请求的工具。
502错误网关—服务器接收到来自上游服务器的无效响应。
503无法获得服务—由于临时过载或维护,服务器无法处理请求。
二是各大搜索引擎爬虫(蜘蛛)的名称整理如下,大家可以对号入座:
1.google爬虫名称
1)googlebot:从google的网站索引和新闻索引中抓取网页
2)googlebot-mobile针对google的移动索引抓取网页
3)googlebot-image:针对google的图片索引抓取网页
4)mediapartners-google:抓取网页确定adsense的内容。只有在你的网站上展示adsense广告的情况下,google才会使用此漫游器来抓取您的网站。
5)adsbot-google:抓取网页来衡量adwords目标网页的质量。只有在你使用googleadwords为你的网站做广告的情况下,google才会使用此漫游器。
2.百度(baidu)爬虫名称:baiduspider
3.雅虎(yahoo)爬虫名称:yahooslurp
4.有道(yodao)蜘蛛名称:yodaobot
5.搜狗(sogou)蜘蛛名称:sogouspider
6.msn的蜘蛛名称:msnbot
其他的搜索引擎我们使用得很少,就不需要理会了:)。