时间:2010-05-19 23:04
张栋伟
第二节、搜索引擎爬虫程序
一什么是搜索引擎爬虫程序
网络爬虫(又被称为网页蜘蛛,网络机器人,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
这些处理被称为网络抓取或者蜘蛛爬行。很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。
一个网络蜘蛛就是一种机器人,或者软件代理。大体上,它从一组要访问的url链接开始,可以称这些url为种子。爬虫访问这些链接,它辨认出这些页面的所有超链接,然后添加到这个url列表,可以称作检索前沿。这些url按照一定的策略反复访问。
二爬虫程序的种类以及分辨
搜索引擎派出他们的爬虫程序去访问、索引网站内容,但是由于搜索引擎派爬虫程序来访会在一定程度上影响网站性能。在你的服务器日志文件中,可见每次访问的路径和相应的ip地址,如果是爬虫程序来访,则user-agent会显示googlebot或msnbot等搜索引擎爬虫程序名称,每个搜索引擎都有自己的user-agent,以下分别列出国内主要的爬虫程序。
百度baidu.com—-baiduspider
abcdbaidu.com/search/spider.htm
谷歌google.com—-googlebot
abcdgoogle.com/bot.html
雅虎yahoo.com—-yahoo
abcdmisc.yahoo.com.cn/help.html
有道yodao.com—-yodaobot
abcdyodao.com/help/webmaster/spider/
搜搜soso.com—-sosospider/sosoimagespider
abcdhelp.soso.com/webspider.htm
abcdhelp.soso.com/soso-image-spider.htm
搜狗sogou.com—-sogou
abcdsogou.com/docs/help/webmasters.htm
微软msn.com—-msnbot
abcdsearch.msn.com/msnbot.htm
第三节认识主流搜索引擎
1关于百度
百度公司(baidu.com,inc)于1999年底成立于美国硅谷,它的创建者是在美国硅谷有多年成功经验的李彦宏先生及徐勇先生。2000年1月,百度公司在中国成立了它的全资子公司-百度网络技术(北京)有限公司,随后于同年10月成立了深圳分公司,2001年6月又在上海成立了上海办事处。
百度的名字寄托着百度公司对自身技术的信心,另一层含义就是突破“事儿做到九十九度就是做到头”的西方说法,百度就是想要力争做到一百度,做到顶上开花的境界。
百度公司不同于一般意义上的网络公司。它既不是着眼于互联网内容的提供,也不是门户网站,而是一家立足于自主掌握并提供互联网核心技术的技术型公司。在中国互联网经济迅猛发展的今天,百度公司结合世界先进的网络技术、中国语言特色以及中国互联网经济发展的现状,开发出了中国互联网信息检索和传递基础设施平台,并且运用最先进的商业模式,直接为整个中国的互联网提供高价值的技术性服务互联网产品,是中国最优秀的互联网技术提供商。
百度公司自进入中国互联网市场以来,就一直以开发真正符合中国人习惯的、可扩展的互联网核心技术为使命。百度所坚持的目标就是为提高中国互联网的技术成份,帮助中国互联网更快地发展而努力。为此,百度不仅带来解决互联网基础问题(信息搜索和信息传递)的产品,而且带来了硅谷式的企业文化以及互联网应用崭新的理念。现在,百度拥有3条产品线,除已被业界广为认可的门户网站中文搜索引擎外,还有服务于企业的高针对性的搜索产品-百度网事通,以及网站加速技术。百度的出现为中国互联网树起了民族技术的一面旗帜,将原来中国互联网依赖于外国网络技术的局面打破。
百度以自身的核心技术“超链分析”为基础,提供的搜索服务体验赢得了广大用户的喜爱;超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。百度总裁李彦宏就是超链分析专利的唯一持有人,目前该技术已为世界各大搜索引擎普遍采用。
百度拥有全球最大的中文网页库,目前收录中文网页已超过20亿,这些网页的数量每天正以千万级的速度在增长;同时,百度在中国各地分布的服务器,能直接从最近的服务器上,把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度。
百度每天处理来自超过138个国家超过数亿次的搜索请求,每天有超过7万用户将百度设为首页,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。2004年起,“有问题,百度一下”在中国开始风行,百度成为搜索的代名词。
百度还为各类企业提供软件、竞价排名以及关联广告等服务,为企业提供了一个获得潜在消费者的营销平台,并为大型企业和政府机构提供海量信息检索与管理方案。百度的主要商业模式为竞价排名(p4p,payforperformance),即为一种按效果付费的网络推广方式,该服务为广大中小企业进行网络营销提供了较佳的发展机会,但同时也引起了一些争议;有人认为该服务会影响用户体验。
2关于谷歌
(1)关于google
google公司(googleinc.,nasdaq:goog),是一家美国的上市公司(公有股份公司),于1998年9月7日以私有股份公司的型式创立,以设计并管理一个互联网搜索引擎;google公司总部位于加利福尼亚山景城,在全球各地都设有销售和工程办事处。google网站于1999年下半年启动;2004年8月19日,google公司的股票在纳斯达克(nasdaq)上市,成为公有股份公司。google公司的总部称作“googleplex”,位于美国加州圣克拉拉县的山景城(mountainview)。在共创办人拉里•佩奇退下后,novell公司的前任行政总裁,埃里克•施密特(erice.schmidt)博士,成为了google公司的行政总裁。
2006年4月12日,google公司行政总裁埃里克•施密特在北京宣布该公司的全球中文名字为“谷歌”(有报道指出取义“丰收之歌”,不过亦有报道指出取义“山谷之歌”)。同时,google公司于2006年2月15日在台湾地区登记之分公司取名为“美商科高国际有限公司”。此前,在一份中国国际经济贸易仲裁委员会域名争议解决中心裁决书中,公司被称为“科高公司”。该公司亦拥有“谷歌.cn”、“谷歌.中国”、“咕果.com”(但不拥有“咕果.中国”及“咕果.公司”)等中文域名。尽管中文用户在除其英文名外更常称google为“古狗”或“狗狗”,其中文域名“古狗.com”、“古狗.cn”、“古狗.中国”等均已被其他公司抢注。此外,google在北京的分公司曾使用“咕果”作为合约签订以及网络招聘的中文译名。北京时间(utc+8)2006年4月17日凌晨1时左右,google简体中文网站正式出现“谷歌”字样(其他地区依旧仅显示“google”)。google中国对“谷歌”的解释是“播种与期待之歌,亦是收获与欢愉之歌”,并称此名称是经google中国的全体员工投票选出。谷歌”发布不久,即遭到很多用户的批评。随后,部分中文用户发起反对“谷歌”的网上签名活动。但google中国坚持使用“谷歌”作为正式名称,但在实际中仍然存在“谷歌”、“google中国”混用的现象。完成该使命的第一步始于google创始人larrypage和sergeybrin在斯坦福大学的学生宿舍内共同开发了全新的在线搜索引擎,然后迅速传播给全球的信息搜索者。google目前被公认为全球规模最大的搜索引擎,它提供了简单易用的免费服务,用户可以在瞬间得到相关的搜索结果。当您访问abcdgoogle.com或众多google域之一时,您可以使用多种语言查找信息、查看股价、地图和要闻、查找美国境内所有城市的电话簿名单、搜索数十亿计的图片并详读全球最大的usenet信息存档–超过十亿条帖子,发布日期可以追溯到1981年。用户不必特意访问google主页,也可以访问所有这些信息。
(2)google技术
google秉持着开发“完美的搜索引擎”的信念,在业界独树一帜。所谓完美的搜索引擎,就如公司创始人之一larrypage所定义的那样,可以“确解用户之意,切返用户之需”。为了实现这一目标,google坚持不懈地追求创新,而不受现有模型的限制。因此,google开发了自己的服务基础结构和具有突破性的pagerank™技术,使得搜索方式发生了根本性变化。
google的开发人员从一开始就意识到:要以最快的速度提供最精确的搜索结果,则需要一种全新的服务器设置。大多数的搜索引擎依靠少量大型服务器,这样,在访问高峰期速度就会减慢,而google却利用相互链接的pc来快速查找每个搜索的答案。这一创新技术成功地缩短了响应时间,提高了可扩展性,并降低了成本。这也是其他公司一直在效仿的技术。与此同时,google从未停止过对其后端技术的改进,以使其技术效率更高。
google搜索技术所依托的软件可以同时进行一系列的运算,且只需片刻即可完成所有运算。而传统的搜索引擎在很大程度上取决于文字在网页上出现的频率。google使用pagerank™技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,google可以将最相关最可靠的搜索结果放在首位。
pagerank技术:通过对由超过50,000万个变量和20亿个词汇组成的方程进行计算,pagerank能够对网页的重要性做出客观的评价。pagerank并不计算直接链接的数量,而是将从网页a指向网页b的链接解释为由网页a对网页b所投的一票。这样,pagerank会根据网页b所收到的投票数量来评估该页的重要性。
此外,pagerank还会评估每个投票网页的重要性,因为某些网页的投票被认为具有较高的价值,这样,它所链接的网页就能获得较高的价值。重要网页获得的pagerank(网页排名)较高,从而显示在搜索结果的顶部。google技术使用网上反馈的综合信息来确定某个网页的重要性。搜索结果没有人工干预或操纵,这也是为什么google会成为一个广受用户信赖、不受付费排名影响且公正客观的信息来源。
超文本匹配分析:google的搜索引擎同时也分析网页内容。然而,google的技术并不采用单纯扫描基于网页的文本(网站发布商可以通过元标记控制这类文本)的方式,而是分析网页的全部内容以及字体、分区及每个文字精确位置等因素。google同时还会分析相邻网页的内容,以确保返回与用户查询最相关的结果。
google的创新并不限于台式机。为了确保通过便携式设备访问网络的用户能够快速获得精确的搜索结果,google还率先推出了业界第一款无线搜索技术,以便将html即时转换为针对wap、i-mode、j-sky和ezweb优化的格式。
(3)google中国
google谷歌中国版是google公司特意为中国开发的搜寻器。服务器位于中国北京。google声称,google.cn的速度较快。但搜索结果与所有未经资讯检查.com国际版有一定差别。
部分大型媒体与科技公司因为协助chinazf筛检网路资讯,而遭各界挞伐。雅虎(yahoo)提供用户电子邮件帐号资料给chinazf,导致大陆记者shitao在2003年与2005年被捕入狱。微软关闭一个热门的博客(blog)网站,因为其内容触怒gcd的资讯检查员。思科公司(cisco)销售网路设备,协助pekingzf限制使用者存取各式各样的海外新闻、博客、论坛等全球资讯网网站。然而,少有公司像google这麼公开为之的。google驻中国大陆人员与gcd密切合作,以确保google.cn产生的搜寻结果不含zf不愿让民众看到的资讯、影像或网站连结。google的主要搜寻引擎网站,google.com,在中国大陆仍连得上,但通常使用效率不彰,因为从greatfirewallofchina内无法开启该网站所提供的连结。而且搜寻时经常会被干扰至断线。事实上,google曾表示,中国间歇性地blockgoogle.com,是该公司成立检查式搜寻站google.cn的主要因素。
google声称,google.cn的速度较快,对使用者提供更好的服务--而且google还在网页最下方明白揭露资讯检查的讯息(据当地法律法规和政策,部分搜索结果未予显示)。即使如此,批评者仍指责,google违反该公司标榜「不作恶」的精神,自甘牺牲良好的商誉,协助拦阻让gcd觉得威胁其极权统治的宗教、政治和历史资讯。意意作家liuxiaobo说:「这和你点选连结但看不到内容的情况不同。至少你看得出哪些资讯遭到拦截。但新的google服务把资讯检查的黑手给藏起来了。」换句话说,现在不再能研判资讯检查者到底隐匿了哪些讯息,只知道有些资讯被筛除掉了。
在有些情况下,这种资讯操纵相当微妙。比方说,如果学生想研究「republicofchina」,上google.cn去查,会被导向1912年至1949年那段时期的资料,那时大陆以republicofchina为国名。但在google.com作同样的搜寻,会产生连往对岸台湾的网站,因为台湾仍以republicofchina为正式国名。
3关于雅虎
(1)关于yahoo
雅虎(yahoo!,nasdaq:yhoo)是美国著名的互联网门户网站,20世纪末互联网奇迹的创造者之一。其服务包括搜索引擎、电邮、新闻等,业务遍及24个国家和地区,为全球超过5亿的独立用户提供多元化的网络服务,迄今为止,保持了全球第一门户搜索网站的地位。
雅虎公司是一家全球性的因特网通讯、商贸及媒体公司。其网络每月为全球超过一亿八千万用户提供多元化的网上服务。雅虎是全球第一家提供因特网导航服务的网站,不论在浏览量、网上广告、家庭或商业用户接触面上,abcdyahoo.com都居于领导地位,也是最为人熟悉及最有价值的因特网品牌之一,在全球消费者品牌排名中位居第38位。雅虎还在网站上提供各种商务及企业服务,以帮助客户提高生产力及网络使用率,其中包括广受欢迎的为企业提供定制化网站解决方案的雅虎企业内部网;影音播放、商店网站存储和管理;以及其他网站工具及服务等。雅虎在全球共有24个网站,其总部设在美国加州圣克拉克市,在欧洲、亚太区、拉丁美洲、加拿大及美国均设有办事处。
(2)中国雅虎
中国雅虎(abcdyahoo.com.cn)开创性地将全球领先的互联网技术与中国本地运营相结合,成为中国互联网界位居前列的搜索引擎社区与资讯服务提供商。中国雅虎一直致力于以创新、人性、全面的网络应用,为亿万中文用户带来最大价值的生活体验,成为中国互联网的“生活引擎”。
4搜狗
(1)关于搜狗
搜狗是搜狐公司于2004年8月3日推出的全球首个第三代互动式中文搜索引擎,域名为abcdsogou.com。搜狗以搜索技术为核心,致力于中文互联网信息的深度挖掘,帮助中国上亿网民加快信息获取速度,为用户创造价值。
搜狗的产品线包括了网页应用和桌面应用两大部分。网页应用以网页搜索为核心,在音乐、图片、新闻、地图领域提供垂直搜索服务,通过说吧建立用户间的搜索型社区;桌面应用则旨在提升用户的使用体验:搜狗工具条帮助用户快速启动搜索,拼音输入法帮助用户更快速地输入,pxp加速引擎帮助用户更流畅地享受在线音视频直播、点播服务。
搜狗网页搜索作为搜狗最核心的产品,经过两年半持续不断地优化改进,于公元2007年1月1日正式推出3.0版本。全面升级的搜狗网页搜索3.0凭借自主研发的服务器集群并行抓取技术,成为全球首个中文网页收录量达到100亿的搜索引擎;加上每天5亿网页的更新速度、独一无二的搜狗网页评级体系,确保了搜狗网页搜索在海量、及时、精准三大基本指标上的全面领先。
搜狗的其他搜索产品也各有特色。音乐搜索小于2%的死链率,图片搜索独特的组图浏览功能,新闻搜索及时反映互联网热点事件的看热闹首页,地图搜索的全国无缝漫游功能,使得搜狗的搜索产品线极大地满足了用户的需求,体现了搜狗强大的研发能力。
搜狗在产品研发的过程中追求技术创新。尤其值得一提的是,搜狗以一种人工智能的新算法,分析和理解用户可能的查询意图,对不同的搜索结果进行分类,对相同的搜索结果进行聚类,在用户查询和搜索引擎返回结果的人机交互过程中,引导用户更快速准确定位自己所关注的内容。该技术全面应用到了搜狗网页搜索、音乐搜索、图片搜索、新闻搜索、地图搜索等服务中,帮助用户快速找到所需的搜索结果。这一技术也使得搜狗的问世标志了全球首个第三代互动式中文搜索引擎诞生,是搜索技术发展史上的重要里程碑。
基于搜索技术,搜狗还推出了若干桌面应用产品。搜狗工具条是用户快速执行搜索的入口,同时集成了rss订阅、文件下载加速、广告拦截、网页评级显示等丰富的功能。拼音输入法利用先进的搜索引擎技术,通过对海量互联网页面的统计和对互联网上新词热词的分析,使得首选词准确率(即候选的第一个词就是要输入的词的比例)领先于其他输入法。pxp加速引擎是一套基于pxp技术的互联网音视频直播/点播解决方案,能够支持内容和服务提供方以很少的带宽同时为上万用户提供流畅的视频服务。
设想一个用户在搜狗的使用体验:通过拼音输入法,大幅提升了输入速度;通过网址导航和工具条,直达目标网站或快速启动搜索;通过网页搜索,从百亿中文网页中找到最相关的信息;通过音乐搜索、图片搜索、新闻搜索、地图搜索等专项搜索,满足特定的查找需求;通过说吧平台,和天南海北的用户交流信息;通过pxp加速引擎,更快地下载文件,更流畅地享受在线音视频直播、点播服务。可见,搜狗的全线产品,针对用户访问互联网过程中信息获取不畅的情况,在多个环节提供服务,把新快全准的优质信息提供给用户,提升了用户访问互联网的体验。
分享到搜狐微博