网站优化

robots.txt是什么,如何写好robots.txt?

robots.txt文件是SEO必学基础中一个非常重要的概念,如果你不会写robots.txt文件,那么不仅会被别有用心的人利用来攻击你的网站,同时也不利于你在搜索引擎中的排名,今天北京SEO息心就来为您全面介绍robots.txt文件的使用方法以及注意事项,看完这篇文章,从此你再不用担心如何写robots.txt文件了。

robots.txt文件是什么

robots.txt文件是一个纯文本文件,用于限制搜索引擎对于网站页面的访问。当搜索引擎的蜘蛛访问一个站点时,首先会检查这个站点是否存在robots.txt。如果存在,就按照这个文件中规定的规则进行访问。

总结起来就是以下三点:

1、网站和搜索引擎之间的协议文件

2、蜘蛛爬行网站时第一个要访问的文件

3、屏蔽内容:不想被抓取的隐私内容、后台、插件、模板、数据库文件。表现形式就是屏蔽了网站某些路径。

robots.txt文件里必须学会的语法 1、符号

User-agent:定义搜索引擎类型

Disallow:定义禁止抓取收录地址

Allow:定义允许抓取收录地址

*:匹配0或多个任意字符

$:结束符

sitemap:网站地图提交(放在robots中的最底部)

2、搜索引擎蜘蛛符号

百度蜘蛛:Baiduspider

谷歌蜘蛛:Googlebot

robots.txt文件的写法 1、常见写法注意事项

(1)冒号后要有一个空格

(2)Disallow要紧挨着User-agent,不要空出一行

(3)符号全是英文状态下的符号(包括空格)

(4)首字母大写

比如:

User-agent: *

Disallow: /data

Disallow: /houtai

Disallow: /include

Disallow: /templete

2、网站地图写法

比如可乎网络的网站地图Sitemap: https://www.kehu56.com/sitemap.xml

3、robots.txt文件的基本写法

禁止所有搜索引擎访问网站的任何部分:

User-agent: *

Disallow: /

允许搜索引擎访问网站全部内容:

User-agent: *

Allow: /

(或者可以建一个空robots.txt文件)

禁止所有搜索引擎访问网站中的某些文件夹:

User-agent: *

Disallow: /data/

Disallow: /houtai/

Disallow: /include/

Disallow: /templete/

(注意,尾部也要带上斜杠,否则会认为你是在禁止访问紧挨着根目录的含有该字符的文件或文件夹,这一点我在文章尾部会为您介绍)

4、容易混淆的写法

(1)屏蔽包含有tag字符的文件或文件夹:

User-agent: *

Disallow: / *tag *(*代表任意字符)

(2)屏蔽以.php为后缀的所有文件:

User-agent: *

Disallow: / *.php $ (*代表任意字符)

(3)robots.txt全站不抓取:

User-agent: *

Disallow: /

※注意:如果/后空格了再写入字符,比如Disallow: / data,也意味着全站不抓取。很多朋友有时候粗心就会多出一个空格,就算robot写的再完善还是导致全站不抓取,举例:

User-agent: *

Disallow: / data (紧挨着,千万不要空格,否则全站不抓取)

Disallow: /houtai /

Disallow: /include /

Disallow: /templete /

区别使用: “只屏蔽data文件夹中的一个文件xxx.php”与“屏蔽data文件夹的所有内容,除了文件xxx.php”

只屏蔽data文件夹中的一个文件xxx.php:

User-agent: *

Disallow: /data/xxx.php

Allow: /data/

屏蔽data文件夹的所有内容,除了文件xxx.php

User-agent: *

Disallow: /data/

Allow: /data/xxx.php

robots.txt的利弊以及解决方法 1、好处:

(1)有了robots.txt,spider抓取URL页面发生错误时则不会被重定向至404处错误页面,同时有利于搜索引擎对网站页面的收录。

(2)robots.txt可以制止我们不需要的搜索引擎占用服务器的宝贵宽带。

(3)robots.txt可以制止搜索引擎对非公开的爬行与索引,如网站的后台程序、管理程序,还可以制止蜘蛛对一些临时产生的网站页面的爬行和索引。

(4)如果网站内容由动态转换静态,而原有某些动态参数仍可以访问,可以用robots中的特殊参数的写法限制,可以避免搜索引擎对重复的内容惩罚,保证网站排名不受影响。

2、坏处:

(1)robots.txt轻松给黑客指明了后台的路径。

解决方法:给后台文件夹的内容加密,对默认的目录主文件inde.html改名为其他。

(2)如果robots.txt设置不对,将导致搜索引擎不抓取网站内容或者将数据库中索引的数据全部删除。

User-agent: *

Disallow: /

这一条就是将禁止所有的搜索引擎索引数据。

使用robots.txt文件最后要注意什么

1、robots.txt生效时间。

短的几天、长的一个月。新站如果一开始写拒绝所有搜索引擎抓取,那么再次取消屏蔽就可能会再等一个月才会收录。所以不建议,新站一开始就屏蔽,可以在本地填充好内容之后再传上去。

2、/的使用:

字符后没有带/——Disallow: /data 意思是屏蔽紧挨着根目录含有data字符的文件或文件夹,比如/wedsdata.php就屏蔽不了,因为没有紧挨着根目录;但是/datapde.php就会屏蔽,因为紧挨着,不会管后面都是什么了。

字符后没有带/——Disallow: /data/ 意思是屏蔽根目录下的data文件夹中的所有文件。

借鉴别人的robots.txt

我们不仅要知道robots.txt文件的书写方法,更要明白robots.txt文件的写作注意事项,这些内容我都在上面提到了,那么我们如何能够彻底掌握robots.txt文件呢?其实只需要多看看别人怎么写就可以了,你只需要在浏览器中输入:“你想要看的域名/robots.txt”,就可以查看他是怎么写的了。比如息心SEO博客的robots.txt文件,你就可以参考:http://www.xixinseo.com/robots.txt

robots.txt的检测

写完robots之后,要仔细检查一遍,一是确保自己想要禁止抓取的目录都已经全部写上,另一方面要确保写法全部正确,这里可以使用百度站长工具来进行检查,这样才能够放心提交了。

robots.txt对于网站的优化还是比较重要的,为了防止一些不利于展示网站核心的页面被收录所导致的扣分的结果,我们还是要仔细书写自己网站的robots.txt,在书写的时候,按照我们在上方介绍的方法以及注意事项,应该可以应付大部分的网站robots.txt的问题

相关文章