什么是robots.txt文件?如何使用robots.txt文件?

　　robots.txt文件是一个网站根目录下的文本文件，用于指示搜索引擎哪些页面可以被抓取和哪些页面不应该被抓取。搜索引擎爬虫在访问网站时会读取robots.txt文件，并根据文件中的指示来确定哪些页面可以被抓取，哪些页面应该被忽略。

　　什么是robots.txt文件?如何使用robots.txt文件?

　　以下是一些使用robots.txt文件的建议：

　　确定哪些页面不应该被抓取：在编写robots.txt文件时，应该明确指出哪些页面不应该被搜索引擎抓取。这些页面可能是私人页面、测试页面、重复页面等等。

　　保护敏感信息：如果您的网站包含敏感信息，如用户数据或机密文档，您可以使用robots.txt文件来保护这些信息，确保它们不会被搜索引擎抓取。

　　避免阻止搜索引擎抓取整个网站：robots.txt文件应该仅用于限制特定页面或目录的抓取，而不是整个网站的抓取。如果您希望搜索引擎完全忽略您的网站，请考虑使用其他方法，如Meta标签或页面头信息。

　　检查robots.txt文件是否有效：在创建robots.txt文件后，应该使用Google Search Console等工具来检查它是否有效，并检查哪些页面可以被抓取和哪些页面不能被抓取。

　　以下是一个简单的robots.txt文件示例：

　　User-agent: *

　　Disallow: /private/

　　Disallow: /admin/

　　在上面的示例中，User-agent:*表示所有搜索引擎爬虫都适用这个规则。Disallow:/private/表示不允许搜索引擎爬虫访问名为“private”的目录，Disallow:/admin/表示不允许搜索引擎爬虫访问名为“admin”的目录。这意味着搜索引擎爬虫将无法访问这些目录中的任何页面。

　　下面，我将列举一些robots.txt的具体用法：

　　允许所有的robot访问

　　User-agent: *

　　Disallow:

　　或者也可以建一个空文件 "/robots.txt" file

　　禁止所有搜索引擎访问网站的任何部分

　　User-agent: *

　　Disallow: /

　　禁止所有搜索引擎访问网站的几个部分（下例中的01、02、03目录）

　　User-agent: *

　　Disallow: /01/

　　Disallow: /02/

　　Disallow: /03/

　　禁止某个搜索引擎的访问（下例中的BadBot）

　　User-agent: BadBot

　　Disallow: /

　　只允许某个搜索引擎的访问（下例中的Crawler）

　　User-agent: Crawler

　　Disallow:

　　User-agent: *

　　Disallow: /

　　另外，我觉得有必要进行拓展说明，对robots meta进行一些介绍：

　　Robots META标签则主要是针对一个个具体的页面。和其他的META标签（如使用的语言、页面的描述、关键词等）一样，Robots META标签也是放在页面的＜head＞＜/head＞中，专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

　　Robots META标签的写法：

　　Robots META标签中没有大小写之分，name=”Robots”表示所有的搜索引擎，可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项：index、noindex、follow、nofollow，指令间以“,”分隔。

　　INDEX 指令告诉搜索机器人抓取该页面；

　　FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去；

　　Robots Meta标签的缺省值是INDEX和FOLLOW，只有inktomi除外，对于它，缺省值是INDEX,NOFOLLOW。

　　这样，一共有四种组合：

　　＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞

　　＜META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW"＞

　　＜META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW"＞

　　＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞

　　其中

　　＜META NAME="ROBOTS" CONTENT="INDEX,FOLLOW"＞可以写成＜META NAME="ROBOTS" CONTENT="ALL"＞；

　　＜META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW"＞可以写成＜META NAME="ROBOTS" CONTENT="NONE"＞

　　目前看来，绝大多数的搜索引擎机器人都遵守robots.txt的规则，而对于Robots META标签，目前支持的并不多，但是正在逐渐增加，如著名搜索引擎GOOGLE就完全支持，而且GOOGLE还增加了一个指令“archive”，可以限制GOOGLE是否保留网页快照。例如：

　　＜META NAME="googlebot" CONTENT="index,follow,noarchive"＞

　　表示抓取该站点中页面并沿着页面中链接抓取，但是不在GOOLGE上保留该页面的网页快照。

　　如何使用robots.txt

　　robots.txt 文件对抓取网络的搜索引擎漫游器（称为漫游器）进行限制。这些漫游器是自动的，在它们访问网页前会查看是否存在限制其访问特定网页的 robots.txt 文件。如果你想保护网站上的某些内容不被搜索引擎收入的话，robots.txt是一个简单有效的工具。这里简单介绍一下怎么使用它。

　　如何放置Robots.txt文件

　　robots.txt自身是一个文本文件。它必须位于域名的根目录中并被命名为"robots.txt"。位于子目录中的 robots.txt 文件无效，因为漫游器只在域名的根目录中查找此文件。例如，http://www.example.com/robots.txt 是有效位置，http://www.example.com/mysite/robots.txt 则不是。

　　这里举一个robots.txt的例子:

　　User-agent: *

　　Disallow: /cgi-bin/

　　Disallow: /tmp/

　　Disallow: /~name/

　　使用 robots.txt 文件拦截或删除整个网站

　　要从搜索引擎中删除您的网站，并防止所有漫游器在以后抓取您的网站，请将以下 robots.txt 文件放入您服务器的根目录：

　　User-agent: *

　　Disallow: /

　　要只从 Google 中删除您的网站，并只是防止 Googlebot 将来抓取您的网站，请将以下 robots.txt 文件放入您服务器的根目录：

　　User-agent: Googlebot

　　Disallow: /

　　每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候，这些协议都需要有各自的 robots.txt 文件。例如，要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引，应使用下面的 robots.txt 文件。

　　对于 http 协议 (http://yourserver.com/robots.txt):

　　User-agent: *

　　Allow: /

　　对于 https 协议 (https://yourserver.com/robots.txt):

　　User-agent: *

　　Disallow: /

　　允许所有的漫游器访问您的网页

　　User-agent: *

　　Disallow:

　　(另一种方法: 建立一个空的 "/robots.txt" 文件, 或者不使用robot.txt。)

　　使用 robots.txt 文件拦截或删除网页

　　您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。例如，如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下（例如，private）的所有网页，可使用以下 robots.txt 条目：

　　User-agent: Googlebot

　　Disallow: /private

　　要阻止 Googlebot 抓取特定文件类型（例如，.gif）的所有文件，可使用以下 robots.txt 条目：

　　User-agent: Googlebot

　　Disallow: /*.gif$

　　要阻止 Googlebot 抓取所有包含 ? 的网址（具体地说，这种网址以您的域名开头，后接任意字符串，然后是问号，而后又是任意字符串），可使用以下条目：

　　User-agent: Googlebot

　　Disallow: /*?

　　尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引，但如果我们在网络上的其他网页中发现这些内容，我们仍然会抓取其网址并编制索引。因此，网页网址及其他公开的信息，例如指向该网站的链接中的定位文字，有可能会出现在 Google 搜索结果中。不过，您网页上的内容不会被抓取、编制索引和显示。

　　作为网站管理员工具的一部分，Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件，并且可为 Google user-agents（如 Googlebot）提供结果。我们强烈建议您使用它。在创建一个robots.txt文件之前，有必要考虑一下哪些内容可以被用户搜得到，而哪些则不应该被搜得到。这样的话，通过合理地使用robots.txt, 搜索引擎在把用户带到您网站的同时，又能保证隐私信息不被收录。

　　误区一：我的网站上的所有文件都需要蜘蛛抓取，那我就没必要在添加robots.txt文件了。反正如果该文件不存在，所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

　　每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该做网站中添加一个robots.txt。

　　误区二：在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取，这样可以增加网站的收录率。

　　网站中的程序脚本、样式表等文件即使被蜘蛛收录，也不会增加网站的收录率，还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。

　　具体哪些文件需要排除，在robots.txt使用技巧一文中有详细介绍。

　　误区三：搜索蜘蛛抓取网页太浪费服务器资源，在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。

　　如果这样的话，会导致整个网站不能被搜索引擎收录。

　　robots.txt使用技巧

　　1. 每当用户试图访问某个不存在的URL时，服务器都会在日志中记录404错误（无法找到文件）。每当搜索蜘蛛来寻找并不存在的robots.txt文件时，服务器也将在日志中记录一条404错误，所以你应该在网站中添加一个robots.txt。

　　2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如：大多数网站服务器都有程序储存在“cgi-bin”目录下，因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意，这样能够避免将所有程序文件被蜘蛛索引，可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有：后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

　　下面是VeryCMS里的robots.txt文件：

　　User-agent: *

　　Disallow: /admin/ 后台管理文件

　　Disallow: /require/ 程序文件

　　Disallow: /attachment/ 附件

　　Disallow: /images/ 图片

　　Disallow: /data/ 数据库文件

　　Disallow: /template/ 模板文件

　　Disallow: /css/ 样式表文件

　　Disallow: /lang/ 编码文件

　　Disallow: /script/ 脚本文件

　　3. 如果你的网站是动态网页，并且你为这些动态网页创建了静态副本，以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引，以保证这些网页不会被视为含重复内容。

　　4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样：

　　Sitemap: sitemap.xml

　　目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司，显然不在这个圈子内。这样做的好处就是，站长不用到每个搜索引擎的站长工具或者相似的站长部分，去提交自己的sitemap文件，搜索引擎的蜘蛛自己就会抓取robots.txt文件，读取其中的sitemap路径，接着抓取其中相链接的网页。

　　5. 合理使用robots.txt文件还能避免访问时出错。比如，不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录，所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。

北京爱品特SEO网站优化提供专业的网站SEO诊断服务、SEO顾问服务、SEO外包服务，咨询电话或微信：13811777897 袁先生可免费获取SEO网站诊断报告。

北京网站优化公司 >> SEO资讯 >> SEO常见问题 >> 什么是robots.txt文件?如何使用robots.txt文件? 本站部分内容来源于互联网，如有版权纠纷或者违规问题，请联系我们删除，谢谢！

北京SEO公司

什么是robots.txt文件?如何使用robots.txt文件?

日期：2023-02-24 01:27:09 阅读：197 文章来源：本站标签: 百度SEO 搜索引擎优化 网站优化

联系我们

13811777897

快捷导航

二维码

北京SEO公司

什么是robots.txt文件?如何使用robots.txt文件?

日期：2023-02-24 01:27:09 阅读：197 文章来源：本站 标签: 百度SEO 搜索引擎优化 网站优化

联系我们

13811777897

快捷导航

二维码

日期：2023-02-24 01:27:09 阅读：197 文章来源：本站标签: 百度SEO 搜索引擎优化网站优化