很多SEO人员并没有真正理解爬行、抓取、索引、收录这些概念到底指的是什么、区别在哪,以及noindex、nofollow、robots文件的实质功能又是什么。对这些概念没有精准理解,处理大型网站结构,决定什么页面需要被抓取,什么页面需要被索引,哪些页面需要禁止抓取、素引等情况时,就很难明白SEO该怎么做。所以,这里先来弄清楚这些概念的意义。
1.爬行
爬行指的是搜索引擎蜘蛛从己知页面上解析出链接指向的URL,也就是沿着链接发现新页面(链按指向的URL)的过程。当然,蜘蛛并不是发现新URI就马上爬过去抓取新页面,而是把发现的URL存放到待抓地址库中,按照一定顺序从地址库中提取要抓取的URL。
2.抓取
抓取是指搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库的过程。蜘蛛抓取就是像浏览器一样打开这个页面,过程和用户浏览器访问一样,也会在服务器原始日志中留下记录。
3.索引
索引的英文是index,指的是将一个URL的信息进行整理,并存入数据库,也就是素引库。用户搜索时,搜索引擎从素引库中提取URL信息并排序展现出来。索引库是用于搜索的,被索引的URL是可以被用户搜索到的,没有被索引的URI,用户在搜索结果中是看不到的。
要注意的是,所谓“一个URL的信息”,并不限于蜘蛛从URL上抓取来的内容,还有来自其他来源的信息,如外部链接、链接的描文字等。有的时候,索引库中关于这个URL的信息,根本没有从这个URL抓取来的内容,但搜索引擎知道这个URL的存在,并且存在一些其他信息。
4.收录
我个人觉得收录和索引没有区别,在这里是混用的。只不过收录是从站长角度看的,搜索时能找到这个URI,就是这个URL被收录了。从搜索引擎角度看,URL被收录了,也就是这个URL的信息在索引库中存在了。英文中并没有收录这个词,它和索引使用的是同一个词index。
有的时候,站长并不希望某些页面被收录(或者说被素引),如复制内容页面。网站上不出现链接,或者使用JavaSoript链按,使用nofollow等方法都不能保证页面一定不被收录。站长自己虽然没有链按到不想被收录的页面,其他网站可能由于某种原因链接到这个页面,导致页面被抓取和收录。
有的时候,站长也不希望某些页面被抓取,如付费内容、还在测试阶段的网站等。还有一种很常见的情況,搜索引擎抓取了大量汉有意义的页面,如电子商务网站按各种条件过调、饰选的页面,各种排序、排版格式的页面,这些贝面数量庞大,抓取过去会消耗掉搜索引擎分配给这不网站的抓取份额,造成真正有意义的页面反倒不能被抓取和收录的情况。如果通过检在日志文什发现这些无意义页面被反复大量抓取,想要收录的页面根本没有抓取,那就应该直接禁止抓取无意义的页面。
要确保页面不被抓取,需要使用robots文件,要确保页面不被收录,需要使用noindex meta robots标签。
北京爱品特SEO网站优化提供专业的网站SEO诊断服务、SEO顾问服务、SEO外包服务,咨询电话或微信:13811777897 袁先生 可免费获取SEO网站诊断报告。
北京网站优化公司 >> SEO资讯 >> SEO技术技巧 >> 爬行、抓取、索引、收录到底是什么意思有什么区别 本站部分内容来源于互联网,如有版权纠纷或者违规问题,请联系我们删除,谢谢!
售后响应及时
全国7×24小时客服热线数据备份
更安全、更高效、更稳定价格公道精准
项目经理精准报价不弄虚作假合作无风险
重合同讲信誉,无效全额退款