也许大家已经知道,每一个搜索引擎都有自己的地址库,地址库的主要作用是方便蜘蛛的爬行和抓取。主要存储一些地址和链接,主要记录已经被发现还没有被抓取的和已经被抓取的页面。

搜索引擎的地址库主要有以下几个来源:

一、人工录入的种子网站

比如一些导航网站,例如GG的DMOZ目录和百度的HAO123都是进行人工录取的。

二、蜘蛛自己发现的网站URL链接

蜘蛛在爬行的过程中发现的一些URL链接进行存储。

三、站长通过搜索引擎提交上来的网站

站长通过提交入口提交上来的网站。

蜘蛛在抓取的过程中,还是要看URL的重要性,在之前的文章中,我也已经写过页面收录 吸引蜘蛛 http://seo.chhua.com/web-note90 一文中也已经写过,权重的影响,大家可以去参考一下。

我知道,百度的网站提交几乎是没有任何作用的,GG的网站提交当然是非常的有用。百度的蜘蛛习惯更喜欢按照自己发现的链接进行爬行,这一点大家要注意,至于如何吸引蜘蛛,大家可以参考http://seo.chhua.com/web-note90。

自由转载,转载请注明: 转载自WEB开发笔记 www.chhua.com

本文链接地址: 搜索引擎的地址库 http://www.chhua.com/web-note3150

相关笔记

更多