时间:2010-05-16 15:18
原文地址:第二章搜索引擎(第三节)">网络营销教程—seo第二章搜索引擎(第三节)作者:张栋伟张栋伟
第三节搜索引擎面临的挑战
目前的搜索引擎不可能做到“博大精深”,这是因为它们是矛盾的两个方面,不可兼得。随着互联网信息的急剧增长,关于搜索引擎的“博大”越来越难实现,从利用信息的角度也完全没有必要,“精深”反而是人们越来越重视并追求的指标。另外,多层次的搜索服务体系远远没有建立起来,传统搜索重导航作用、轻精准信息服务,就像行人问路,行人需要的不仅仅是方向,还要知道具体的路标指示。
现在人们经常谈论下一代搜索引擎,那么,下一代搜索引擎与第二代搜索引擎有什么不同?又有什么关系?它应该包括哪些功能?这些都是应该回答的问题,但答案是众说纷纭。也许下一代搜索引擎融入了更强劲的智能化、人机交互等方法来改善相关度的计算,也许下一代搜索引擎不仅仅运行在大规模服务器上,更有可能的是运行在共享计算资源的个人电脑集群上,或者植入“搜索芯片”中,也许其索引库的边界已经模糊、也许更加清晰,也许当下搜索巨头通过资金、品牌等人为地不断树立的商业壁垒,终究抵挡不住创新搜索技术的颠覆,正如当初google将altavista无声地瓦解一样。
一、搜索引擎的技术流派
搜索引擎的技术流派可以分为三类:第一类是利用计算机程序自动进行信息处理的自动化派,其典型代表是google以及ghunt等;第二类是以人工进行信息分类处理为主的人力加工派,这方面的典型代表是早期的yahoo,正在兴起的web2.0、网摘等社区化搜索是这一流派的新发展;第三类是强调智能化人机交互、协同的融合派,目前英文yahoo的搜索引擎在发展这方面的技术,msnlive也显示出其更加重视融合性的技术,联索iface专业搜索融入了用户知识和机器学习方法,可以看做是融合派在中文搜索引擎方面的典型代表。
如果按照网页库的容量、相关度计算技术、用户搜索体验以及商业模式等方面来划分,到目前为止,搜索引擎的发展大约经历了两代。第一代搜索引擎(1994年~1997年)的索引网页量一般都在数百万量级左右,采用全文检索技术和分布式并行运算技术,但极少重新搜集网页并去刷新索引,而且其检索速度较慢,一般都要等待10秒甚至更长的时间,同时承受的检索请求也受到很大限制,商业模式处于探索期并且尚未成型。
第二代搜索引擎(1998年至今)大多采用分布式协同处理方案,其网页索引库一般都在数千万个网页量级甚至更多,采用可伸缩的索引库架构,每天能够响应数千万次甚至数以亿计的用户检索请求。1997年11月,当时最先进的几个搜索引擎宣称能建立1亿数量级的网页索引。以google为代表的第二代搜索引擎通过链接分析和点击分析(网页流行度)方法来计算(网页权威性)相关度取得了巨大的成功。另外,以自然语言进行问题解答的搜索引擎在某种程度上改善了用户体验,更重要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商业模式,如google、overture、百度等收费搜索服务均受益于此商业模式。
二、相关名词解释
1.全文搜索引擎
是由一个称为蜘蛛(spider)的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引器为搜集到的信息建立网页索引数据库,由检索器根据用户输入的查询条件检索索引库,并将查询结果返回给用户。服务方式是面向网页的全文检索服务。
2.目录索引搜索引擎
主要以人工方式搜集信息,由编辑人员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。用户完全可以不用关键词(keywords)进行查询,仅靠分类目录也可找到需要的信息。
3.元搜索引擎
是指在统一的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是借助于其他搜索引擎进行工作,没有自己的索引库,它是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。
4.自动分类技术
是计算机根据分类标准自动将文档归类到已经存在的类别体系(或者主题)下的某一个具体类别中。目前自动分类并不能完全代替人工所做的相关工作,只是提供了一个花费较少的可选择方法。
5.文本聚类技术
是利用计算机将已经存在的大量文本(很多文档)进行分组的全自动处理过程。聚类可以提供对一个大的文本集内容的概况了解,可以识别隐藏的共同点,可以便捷地浏览相近或相关的文本
6.网文摘录
又称网摘,它具有对内容页的收藏、分类、摘录、加注标签、保存到信息库、信息库共享等功能,主要是为了满足用户阅读网络内容和信息知识积累的需要。