返回首页网站优化实操

robots爬虫协议怎么写?

robots.txt是网站根目录的一个文件,域名/robots.txt

robots.txt是网站根目录的一个文件,域名/robots.txt

它是搜索引擎蜘蛛抓取网站时,抓取的第一个文件

主要有以下作用:

1、对搜索引擎蜘蛛作出规定,允许它抓取或者不抓取某些信息

2、保护网站隐私,比如网站后台、用户信息等

3、节省搜索引擎的抓取资源,也就是让蜘蛛别太累

4、如果是动态链接和静态链接同时存在,可以禁止它抓取动态链接,只抓取静态链接,以便于统一路径,集中权重

5、注意,robots文件只针对站内链接

总之,它的存在就是为了禁止蜘蛛抓取网站内无价值的界面(无价值,是对于蜘蛛而言)

robots规则

allow:允许蜘蛛抓取所有网站链接,默认,不需要写,只要是前面没有disallow,那就是allow

disallow:禁止抓取-禁止抓取目录(文件夹),允许抓取图片

*,这个叫做通配符,指代所有,比如说User-agent *,意思是所有的蜘蛛,包括谷歌蜘蛛、百度蜘蛛、腾讯搜搜、搜狗、神马、360等等。

$,这个叫做终止符,意为抓取结束。如Disallow:/*.js$,意为抓取到js之后,就结束

sitemap:网站地图链接地址

规则细节:

1、首字母大写

2、要写的是英文状态下的冒号:并且冒号后面有一个空格

3、反斜杠/,如果是disallow :/ 代表不允许蜘蛛抓取整个网站

4、如果斜杆/后面加了空格,就像Disallow: / ab跟Disallow: /是一样的,都是禁止抓取整个网站

5、Disallow: / ab 跟Disallow: / ab*是一样的效果

6、Disallow: / ab/ 禁止抓取该文件夹 Disallow: / ab 范围更大

7、蜘蛛会遵循最详细的规则,比如

第一个:Disallow:/uploads/

第二个:Allow:/uploads/* .jpg

第二个更加详细,蜘蛛遵循这个规则

常见的robots规则:

1、用户/权限:用户注册登录、用户中心

2、wordpress

后台管理:Disallow: /blog/wp-admin/

动态路径:禁止动态路径的抓取:Disallow: /*?* ,相同的就保留,不同的用*代替

3、织梦dedecms

模板目录:Disallow: /templets/

插件目录:Disallow: /plus/

后台目录:Disallow: /dede/

4、搜索结果页

原因:重复或者质量较低的结果页

规律:域名?s=

写法:Disallow: /blog/?s=*