返回首页网站优化实操

robots爬虫协议怎么写？

robots.txt是网站根目录的一个文件，域名/robots.txt

它是搜索引擎蜘蛛抓取网站时，抓取的第一个文件

主要有以下作用：

1、对搜索引擎蜘蛛作出规定，允许它抓取或者不抓取某些信息

2、保护网站隐私，比如网站后台、用户信息等

3、节省搜索引擎的抓取资源，也就是让蜘蛛别太累

4、如果是动态链接和静态链接同时存在，可以禁止它抓取动态链接，只抓取静态链接，以便于统一路径，集中权重

5、注意，robots文件只针对站内链接

总之，它的存在就是为了禁止蜘蛛抓取网站内无价值的界面（无价值，是对于蜘蛛而言）

robots规则

allow：允许蜘蛛抓取所有网站链接，默认，不需要写，只要是前面没有disallow，那就是allow

disallow：禁止抓取-禁止抓取目录（文件夹），允许抓取图片

*，这个叫做通配符，指代所有，比如说User-agent *，意思是所有的蜘蛛，包括谷歌蜘蛛、百度蜘蛛、腾讯搜搜、搜狗、神马、360等等。

$，这个叫做终止符，意为抓取结束。如Disallow:/*.js$,意为抓取到js之后，就结束

sitemap：网站地图链接地址

规则细节：

1、首字母大写

2、要写的是英文状态下的冒号:并且冒号后面有一个空格

3、反斜杠/，如果是disallow :/ 代表不允许蜘蛛抓取整个网站

4、如果斜杆/后面加了空格，就像Disallow: / ab跟Disallow: /是一样的，都是禁止抓取整个网站

5、Disallow: / ab 跟Disallow: / ab*是一样的效果

6、Disallow: / ab/ 禁止抓取该文件夹 Disallow: / ab 范围更大

7、蜘蛛会遵循最详细的规则，比如

第一个：Disallow:/uploads/

第二个：Allow:/uploads/* .jpg

第二个更加详细，蜘蛛遵循这个规则

常见的robots规则：

1、用户/权限：用户注册登录、用户中心

2、wordpress

后台管理：Disallow: /blog/wp-admin/

动态路径：禁止动态路径的抓取：Disallow: /*?* ，相同的就保留，不同的用*代替

3、织梦dedecms

模板目录：Disallow: /templets/

插件目录：Disallow: /plus/

后台目录：Disallow: /dede/

4、搜索结果页

原因：重复或者质量较低的结果页

规律：域名?s=

写法：Disallow: /blog/?s=*