爬行、抓取、索引、收录到底是什么意思有什么区别

　　很多SEO人员并没有真正理解爬行、抓取、索引、收录这些概念到底指的是什么、区别在哪，以及noindex、nofollow、robots文件的实质功能又是什么。对这些概念没有精准理解，处理大型网站结构，决定什么页面需要被抓取，什么页面需要被索引，哪些页面需要禁止抓取、素引等情况时，就很难明白SEO该怎么做。所以，这里先来弄清楚这些概念的意义。

　　网站收录和索引介绍

　　1.爬行

　　爬行指的是搜索引擎蜘蛛从己知页面上解析出链接指向的URL，也就是沿着链接发现新页面（链按指向的URL）的过程。当然，蜘蛛并不是发现新URI就马上爬过去抓取新页面，而是把发现的URL存放到待抓地址库中，按照一定顺序从地址库中提取要抓取的URL。

　　2.抓取

　　抓取是指搜索引擎蜘蛛从待抓地址库中提取要抓的URL，访问这个URL，把读取的HTML代码存入数据库的过程。蜘蛛抓取就是像浏览器一样打开这个页面，过程和用户浏览器访问一样，也会在服务器原始日志中留下记录。

　　3.索引

　　索引的英文是index，指的是将一个URL的信息进行整理，并存入数据库，也就是素引库。用户搜索时，搜索引擎从素引库中提取URL信息并排序展现出来。索引库是用于搜索的，被索引的URL是可以被用户搜索到的，没有被索引的URI，用户在搜索结果中是看不到的。

　　要注意的是，所谓“一个URL的信息”，并不限于蜘蛛从URL上抓取来的内容，还有来自其他来源的信息，如外部链接、链接的描文字等。有的时候，索引库中关于这个URL的信息，根本没有从这个URL抓取来的内容，但搜索引擎知道这个URL的存在，并且存在一些其他信息。

　　4.收录

　　我个人觉得收录和索引没有区别，在这里是混用的。只不过收录是从站长角度看的，搜索时能找到这个URI，就是这个URL被收录了。从搜索引擎角度看，URL被收录了，也就是这个URL的信息在索引库中存在了。英文中并没有收录这个词，它和索引使用的是同一个词index。

　　有的时候，站长并不希望某些页面被收录(或者说被素引)，如复制内容页面。网站上不出现链接，或者使用JavaSoript链按，使用nofollow等方法都不能保证页面一定不被收录。站长自己虽然没有链按到不想被收录的页面，其他网站可能由于某种原因链接到这个页面，导致页面被抓取和收录。

　　有的时候，站长也不希望某些页面被抓取，如付费内容、还在测试阶段的网站等。还有一种很常见的情況，搜索引擎抓取了大量汉有意义的页面，如电子商务网站按各种条件过调、饰选的页面，各种排序、排版格式的页面，这些贝面数量庞大，抓取过去会消耗掉搜索引擎分配给这不网站的抓取份额，造成真正有意义的页面反倒不能被抓取和收录的情况。如果通过检在日志文什发现这些无意义页面被反复大量抓取，想要收录的页面根本没有抓取，那就应该直接禁止抓取无意义的页面。

　　要确保页面不被抓取，需要使用robots文件，要确保页面不被收录，需要使用noindex meta robots标签。

北京爱品特SEO网站优化提供专业的网站SEO诊断服务、SEO顾问服务、SEO外包服务，咨询电话或微信：13811777897 袁先生可免费获取SEO网站诊断报告。

北京网站优化公司 >> SEO资讯 >> SEO技术技巧 >> 爬行、抓取、索引、收录到底是什么意思有什么区别本站部分内容来源于互联网，如有版权纠纷或者违规问题，请联系我们删除，谢谢！

联系我们

TEL

13811777897

地址一：北京市海淀区丰贤中路7号4号楼五层5530号

地址二：北京市海淀区丰贤中路7号4号楼五层5530号

邮箱：5666233@qq.com

邮编：102208

二维码

QR CODE

微信公众号
手机端网站

北京爱品特网络科技有限公司提供专业的SEO搜索引擎优化服务，包括SEO网站诊断服务、SEO外包服务、SO顾问服务、SEO建站服务、谷歌SEO优化等服务内容。爱品特团队拥有多年SEO优化经验，熟悉企业网站SEO及大型网站SEO，负责过数个十万百万流量级SEO网站优化服务。以seo为导向，为企业主提供正规、可靠的白帽SEO顾问咨询服务、专项问题解决服务等。
城市分站：北京东城西城朝阳丰台石景山海淀顺义通州大兴房山门头沟昌平平谷密云怀柔延庆天津石家庄太原呼和浩特沈阳大连长春哈尔滨南京杭州宁波合肥福州厦门南昌济南青岛郑州武汉长沙南宁海口重庆成都贵阳昆明西安兰州西宁银川乌鲁木齐