robots.txt的作用－多网互联美国服务器

robots.txt的作用

2017-12-14

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

robots.txt文件是一个文本文件，使用任何一个常见的文本编辑器，比如Windows系统自带的Notepad，就可以创建和编辑它。robots.txt是一个协议，而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

obots.txt文件特点：必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt 文件在SEO中作用：鉴于网络安全与隐私的考虑，搜索引擎遵循robots.txt协议。通过根目录中创建的纯文本文件robots.txt，网站可以声明不想被robots访问的部分。每个网站都可以自主控制网站是否愿意被搜索引擎收录，或者指定搜索引擎只收录指定的内容。当一个搜索引擎的爬虫访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果该文件不存在，那么爬虫就沿着链接抓取，如果存在，爬虫就会按照该文件中的内容来确定访问的范围。

通过robots.txt可以删除被收录的内容：

1、当你的网页已被收录，但想用robots.txt删除掉，一般需要1-2个月。

2、结合Google网站管理员工具，你可以马上删除被Google收录的网页。

3、结合百度的站长平台，通过这里可以尽快删除被百度收录的页面：http://www.baidu.com/search/badlink_help.html

使用robots.txt应遵循几个原则：

1、不要屏蔽首页的后缀，比如：index.php，index.html 等；

2、不要写太多带星号的，尽量简洁一些，我们看百度和Google的robtos.txt带星号的写法几乎没有，太多带星号的，就可能存在误伤；

3、不用什么都屏蔽，某些页面即使被收录了也不影响什么的，就建议可以不用屏蔽。

上一篇:操作Linux系统需要掌握哪些知识

下一篇:使用相同密码登陆不同网站太危险？试试这个方法

QQ客服