在过去的一段时间里,大家一度对收录和索引的概念非常模糊,百度工程师也曾“粗暴”地说过“收录和索引是一回事”。但实际工作中,发现,其实收录和索引都有其各自的重要意义,并不能含糊地混为一谈,于是制作了这样一张图,让大家快速了解搜索引擎的主要工作过程;
搜索引擎工作原理: 首先蜘蛛(spider)通过页面上在超级链接关系,不断的发现新的URL并抓取; 其次将爬行在数据存储原始页面数据库; 再次进行页面分析,对页面进行初步分析(比如:标题、页面权重、链接深度等)对内容进行质量分析; 在页面分析的基础上,对有价值的内容建立索引; 最后匹配用户检索内容,用户检索关键词后 ,排名程序调用索引库数据,计算排名显示给用户; 了解到搜索引擎基础工作原理,就更好的方便去我们去了解收录与索引的区别了; 1,收录和索引分别指什么 收录:页面被Baiduspider发现、分析过,其实就是指抓取于、存储及页面分析的过程; 索引:Baiduspider经初步分析后认为有意义,做建库处理; 2, 收录和索引的关系 包含关系,先收录才可以建索引,收录量大于索引量。是通往收录的大门; 3, 收录和索引的意义 收录意义1:收录是索引的前提,站点需要保持服务器稳定(参考抓取、抓取)、robots正确,为Baiduspider抓取铺平道路; 收录意义2:Baiduspider只能处理已分析过的页面,面对新旧页301和移动适配,可为已收录页面完成权值评分以及流量切换; 索引意义1:只有被建入索引库的网页才有获得流量的机会(网页虽然被建入索引库,但获得流量的机会并不同,无效索引很难获得流量); 索引意义2:新闻源站点(新闻源目录)内的链接,必须先被网页库建索引,才有机会出现在新闻检索中; 4, 如何查询收录量和索引量目前百度未提供查询收录的工具,任何第三方提供的所谓收录查询都是不靠谱儿的。站长可以通过LOG日志分析估算收录,注意真假Baiduspider()真实索引量只能通过百度站长平台索引量工具查询目前有第三方开发的工具可以辅助分析索引中页面的引流能力,如site.itseo.net(第三方工具,仅供参考)