时间:2010-05-19 22:44
seo:搜索引擎优化--爬虫篇一个网站的流量能大致分成三个部分:直接访问(direct)、引用页(referer)和搜索(searchengine)。其实搜索那一部分也能属于引用页的范畴,但是它太重要了,让我们不能不单独拿出来作为一个独立的分析模块。总体来说,根据网站的性质和发展,这三部分的比例会有所不同。比如说,对于门户网站来说,直接访问的百分比应该一般网站高,不然“门户”一词就失去了意义。同样,对于一些提供服务性质的网站,搜索部分就应该高一点,因为当用户需要寻找某项服务的时候,第一站往往是百度或谷歌。对于这三部分的流量,会有不同的策略和方法去提高自己网站的访问量。在本文中,笔者侧重于搜索引擎。
下面就让我们来介绍一下今天的主角——爬虫(crawler)。爬虫是搜索引擎获取网络资源的重要途径qq空间资源。通过网络爬虫,搜索引擎可以有机的获取当前互联网上最新的网页,为接下来分析关键词,排序等等提供素材。既然爬虫如此的重要,那么我们就应该针对爬虫给他提供一些适合他的“食物”(笔者在此不想提过多的技术分析,比如说广度优先,深度优先,内容相关,网页重要性等等,那些是留给各个研发人员去关心的事情,在这里笔者只想描述些概念性的观点,适合大家理解讨论)。但是在这里有个非常重要的概念就是爬虫是很有礼貌的,它不会不告而访。它会在自己的“useragent”声称“我是某某搜索引擎的爬虫”。这就为我们提用一个很好的机会,因为机器毕竟和人不一样,要达到人类最好的视觉效果可能会对搜索引擎对页面的分析不利,反之亦然。通过探测爬虫的方法,可以把一个完全只适合给机器看的页面交给爬虫但是一点也不影响到自己真正用户的用户体验。而且,随着时间的发展,爬虫开始变的越来越聪明,有些爬虫比如说google,已经可以理解页面本身中的javascript(但不是包括<scripttype=”text/javascript”src=”xxx”>qq头像大全
爬虫还有一个重要但是很无奈的特点就是爬虫的资源是有限的。特别是对于一些规模较小的搜索引擎,他们会设计自己的一套算法来决定是否要让爬虫访问某个页面。如果这个页面不够“重要”(由各个引擎自己定义),而且资源也不够的情况下,这个页面就会被忽略。我们不妨来做个实验,去百度的网站输入“site:abcdq066.com”,会显示有“约694,000篇”,再去sogou的网页尝试,你会看见“找到6个网页”。这也给各位希望做搜索引擎优化的诸位提个警钟,不要太在意这个时候在(小规模搜索引擎的)结果。如果资金允许的话,在这个时候在小规模引擎上买些关键词的效果会来的更好。
笔者感想:身为alexa的高级工程师,让我感到自豪的是google在其初期阶段一直都是使用alexa的爬虫结果。还记得有一次一个老员工在和我吹当年google两位创始人来alexa寻求合作时候的场景。但是时代变化如此之快,现在google已经是排名第一互联网公司,而我们却被amazon收购,不得不说“shameonalexa”。这些都是题外话,时下搜索引擎优化是网络时下非常流行的词汇,但是如果我们不能了解一点搜索引擎本身的话,就很难有所针对性的作出判断和动作。在美国有一句话是这么说的“一个好的医生知道怎么样去手术,但是一个杰出的医生知道怎么样不去手术”。徐州女人我想同样的话也适用在这里,一个杰出的seo专家应该知道什么地方是不应该去做seo的。以牺牲用户的体验的代价来提高流量的行为往往得不偿失。希望各位读者在做类似的决定的时候能够慎行。
这样外部的javascript),这样如果你不想让爬虫去某个链接的话完全可以把它写进javascript中。至于说html里面的各个标签应该怎么写对搜索引擎有益,互联网上已经有很多文章阐述了,本文就不赘述了。