您现在的位置是：芭奇站群管理系统 > 优化技巧 > -> 网站iis日志的设置与搜索引擎爬虫痕迹的分析

网站iis日志的设置与搜索引擎爬虫痕迹的分析

时间：2010-05-16 15:29

　　虽然做网站建设和seo优化有段时间了，但对于iis日志的分析一直不曾研究，今天看到一篇关于iis日志和搜索引擎爬虫痕迹的文章，特地收藏，与大家共享。

　　这次由于建设一个新网站的原因，重新上服务器开通了iis日志，居然还遇见了一点小问题。搜索了很多技术文章才最终搞定。我想，应该还有很多初学者，甚至是seo入门的朋友，对iis日志都还不够熟悉吧？因此今天我便从iis日志的设置到如何对爬虫进行分析做一个简要的讲解，权当作是初级的seo培训。

　　一、iis日志的设置。

　　第一个步骤：打开iis服务器。选择所要设置的网站属性。弹出如下窗口：

　　选择“启用日志记录”，勾选，选择“w3c扩展日志文件格式”。

　　第二步骤：再次点击这里的“属性”按钮，常规选项里面，选择新日志计划为“每天”，当然也可以选择其他，选择好保存日志文件的目录。

　　很多seo设置到这里，点击确定之后，发现iis日志已经开始记录，但是无论如何都找不到搜索引擎爬虫的痕迹，类似于baiduspider+怎么都看不到，其实，我们还应该做第三个辅助步骤，因为默认的iis日志是不开启这个功能的。

　　第三个步骤：选择高级选项。勾选底下的用户代理（cs(user-agent)）等选项，我一般都将最下面的三个选项勾选起来。这样，你才可以看到百度等爬虫的名称。

　　第四个步骤：如果你全部按照上面设置之后，发现你的iis日志还没开始记录，也就是本次困扰了我非常久的问题，那么最重要的一步就是检查相关的设置是否都完整。有的朋友说iis日志不记录是因为系统服务windowstime没启动，或者系统的权限不正确等，比如没让iis日志保存的那个文件夹有和iis一样的权限之类，其实没有这么复杂，把下图的“记录访问”选项勾选即可。这样你的iis日志就开始正常记录了。

　　二、如何分析网站iis日志中的搜索引擎爬虫轨迹

　　首先，加入你要搜索百度的爬虫，那么就直接在保存记录的文本文档上搜索“baiduspider”，我们节选以下一行来做详细的分析：

　　2009-04-0716:00:09w3svc471124.173.129.217get/info/71620_827.html-80-203.208.60.138mozilla/5.0+(compatible;+googlebot/2.1;++abcdgoogle.com/bot.html)2000022228

　　这段iis日志代码表示：在2009-04-0716:00:09这个时间，百度搜索引擎的蜘蛛（ip地址为203.208.60.138，后面的abcdgoogle.com/bot.html是关于googlebot+的相关问题）访问了服务器ip为124.173.129.217的网站abcdvegoo.net，并且抓取了页面/info/71620_827.html，该日志记录保存在w3svc471文件夹。

　　其中，两个地方值得说明：

　　一是代码中abcdgoogle.com/bot.html后面的200表示搜索引擎蜘蛛爬行后返回http的状态代码，代表成功爬行并抓取。

　　各个数字代码的具体意思参见如下：

　　2xx成功

　　200正常;请求已完成。

　　201正常;紧接post命令。

　　202正常;已接受用于处理，但处理尚未完成。

　　203正常;部分信息—返回的信息只是一部分。

　　204正常;无响应—已接收请求，但不存在要回送的信息。

　　3xx重定向

　　301已移动—请求的数据具有新的位置且更改是永久的。

　　302已找到—请求的数据临时具有不同uri。

　　303请参阅其它—可在另一uri下找到对请求的响应，且应使用get方法检索此响应。

　　304未修改—未按预期修改文档。

　　305使用代理—必须通过位置字段中提供的代理来访问请求的资源。

　　306未使用—不再使用;保留此代码以便将来使用。

　　4xx客户机中出现的错误

　　400错误请求—请求中有语法问题，或不能满足请求。

　　401未授权—未授权客户机访问数据。

　　402需要付款—表示计费系统已有效。

　　403禁止—即使有授权也不需要访问。

　　404找不到—服务器找不到给定的资源;文档不存在。

　　407代理认证请求—客户机首先必须使用代理认证自身。

　　410请求的网页不存在(永久);

　　415介质类型不受支持—服务器拒绝服务请求，因为不支持请求实体的格式。

　　5xx服务器中出现的错误

　　500内部错误—因为意外情况，服务器不能完成请求。

　　501未执行—服务器不支持请求的工具。

　　502错误网关—服务器接收到来自上游服务器的无效响应。

　　503无法获得服务—由于临时过载或维护，服务器无法处理请求。

　　二是各大搜索引擎爬虫（蜘蛛）的名称整理如下，大家可以对号入座：

　　1.google爬虫名称

　　1）googlebot：从google的网站索引和新闻索引中抓取网页

　　2）googlebot-mobile针对google的移动索引抓取网页

　　3）googlebot-image：针对google的图片索引抓取网页

　　4）mediapartners-google：抓取网页确定adsense的内容。只有在你的网站上展示adsense广告的情况下，google才会使用此漫游器来抓取您的网站。

　　5）adsbot-google：抓取网页来衡量adwords目标网页的质量。只有在你使用googleadwords为你的网站做广告的情况下，google才会使用此漫游器。

　　2.百度（baidu）爬虫名称：baiduspider

　　3.雅虎（yahoo）爬虫名称：yahooslurp

　　4.有道（yodao）蜘蛛名称：yodaobot

　　5.搜狗（sogou）蜘蛛名称：sogouspider

　　6.msn的蜘蛛名称：msnbot

　　其他的搜索引擎我们使用得很少，就不需要理会了：）。

与网站iis日志的设置与搜索引擎爬虫痕迹的分析相关文章：
　　·我们之所以提醒你关于这个话题的原因在于
　　·已经成为一个独立的、快速扩张的销售渠道
　　·你写的整篇文章中整体内容内肯定要包含你的关
　　·不管网站群软件站内部有多垃圾
　　·新讯天下传媒：软文发布是推广网站的重要工具
　　·学习好帮手 Google+新手入门指南手册站群

　　本文标题：网站iis日志的设置与搜索引擎爬虫痕迹的分析
　　本文地址：http://www.bakii.cn/seo/201005162647.html