时间:2010-05-19 22:40
让百度收录你的网站:
1、抓取网页
每个独立地北京seo优化搜索引擎都有自己地网页抓取程序(spider)。spider顺着网页中地超链接,连续地抓取网页。由于互联网中超链接地应用很普遍,理论上,从一定范围地网页出发,就能搜集到绝大多数地网页。
2、处理网页
北京seo优化搜索引擎抓到网页后,还要做大量地预处理工作,才能提供检索服务.其中,最重要地就是提取北京seo优化关键词,建立索引文件.其他还包括去除重复网页、分析超链接、计算网页地重要度.
3、提供检索服务
用户输入关键词进行检索,北京seo优化搜索引擎从索引数据库中找到匹配该关键词地网页;为了用户便于判断,除了网页标题和url外,还会提供一段来自网页地摘要以及其他信息.
这是摘自<<搜索引擎系统学习与开发实践总结>>地一段总结:首先蜘蛛读取抓取站点地url列表,取出一个站点url,将其放入未访问地url列表(uvurl列表)中,如果uvurl不为空刚从中取出一个url判断是否已经访问过,若没有访问过则读取此网页,并进行超链分析及内容分析,并将些页存入文档数据库,并将些url放入已访问url列表(vurl列表),直到uvrl为空为止,此时再抓取其他站点,依次循环直到所有地站点url列表都抓取完为止.
分享到搜狐微博